library(fmsb)
library(ggplot2)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(pwr)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.1
## ✔ readr 2.1.5
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(gridExtra)
##
## Attaching package: 'gridExtra'
##
## The following object is masked from 'package:dplyr':
##
## combine
library(devtools)
## Loading required package: usethis
Opzetten onderzoek + voorbereidingen
Tasks
Ik heb een groepje gemaakt met Storm. Wij samen dachten eerst aan het onderzoeken van dingen die iets met sporten te maken hebben. Dit was echter niet mogelijk door budget en grote van steekproef.
Wij hebben toen gedacht om iets te onderzoeken wat met mentale gezondheid heeft te maken. Hierover zijn we gaan sparren en we kwamen uit op Geluk. Wij hebben daarna met de leraar staan praten die ons heeft geholpen met het meer een vraag maken. We denken hoe kan je geluk nou vergelijken. Als je kijkt naar verschillende steden heb je al een factor, Wanneer je kijkt naar steden die specifiek met studenten hebben te maken zit je in een kleiner veld wat goede resultaten zou kunnen werven. Ik stel voor om te kijken tussen de verschillen in geluk van de studenten steden. Hier zijn we het beiden over eens. We zoeken op google naar “Welke steden zijn studenten steden” We komen op de volgende website https://www.hallmark.nl/magazine/huis/de-leukste-studentensteden-van-nederland/ (22-04-2024) Hier op staat een top 10 lijst met steden. Wij halen er uit dat Groningen, Leiden, Utrecht boven aan staan en dus nemen we deze in ons lijstje op Amsterdam staat lager en deze nemen we dus ook mee. Dit omdat er ook naar studenten steden moeten gekeken worden waar het niet compleet alleen voor de studenten is. Ik opende ook de website van https://www.studiekeuzelab.nl/kies/welke-studentenstad-past-bij-mij-top-5 (22-04-2024) dit is een studie keuze website waar dus ook allemaal studenten steden op stonden. Ik zag dat hier dezelfde steden ook weer opstonden echter stonden deze niet op een top 10 volgorde. Hierdoor heb ik met storm overlegt en we houden het bij deze steden. Leiden, Groningen, Utrecht en Amsterdam.
Het Doel van de dag is dus Redelijk behaald. De onderzoeksvraag is half gevonden maar moet nog worden uitgewerkt verder
Het afmaken van de onderzoeksvraag & meet methode vinden.
Tasks
Ik heb samen met storm besproken hoe we de hoofdvraag moeten formuleren. We zijn gaan brainstormen met de keywords. “Studenten”, “Geluk”, “Stad / Studentenstad” Hier kwamen een aantal vragen uit.
Na het praten met de leraar hebben wij besloten om “In welke studenten stad zijn studenten het gelukkigst?“ Als onze onderzoeksvraag te gebruiken.
De hypothese en 0-hypothese moeten we hiermee ook maken. De hypthose waar we op komen is: Het maakt voor het geluk van de student niet uit in welke stad deze studeert. De gedachte gang hier achter is dat een stad niet bepaald hoe gelukkig iemand is de algemene ervaring is dus het leidende.
Nu gaan we kijken wat hebben we nodig en hoe gaan we deze vraag beantwoorden. Storm en ik hebben wat onderzoeksmethoden bekeken https://www.scribbr.nl/category/onderzoeksmethoden/ (23-04-2024) deze website heeft ons een paar ideeën gegeven, ook hebben wij onze leraar gevraagd die met ons sparde met wat past De opties die er uitkwamen waren een test op cortisol of een enquête. De cortisol test was echter te duur en complex. Dus was de enquête de keuze die Storm en ik samen hebben gemaakt. De enquête produceert een csv data file die makkelijk in r is te importen dit kan met de volgende functie:
# read.csv()
De enquête heeft een paar voorwaarden: De vragen moeten duidelijk zijn, De manier van antwoorden moet een datatype terug geven waarmee gemiddelden en grafieken etc mee kunnen worden uitgerekend. De verspreiding van de enquête is een belangrijke beslissing.
De vragen die in de enquête zullen staan moeten de hoofdvraag “In welke studenten stad zijn studenten het gelukkigst?“ beantwoorden. Dus moeten wij onderzoeken welke factoren geluk bepalen en welke er aan toevoegen of afnemen. Dit moeten wij doen door het lezen van literatuur over geluk, Situatie en moleculaire werking.
In de literatuur kijken naar wat en hoe
Tasks
ik ben gaan kijken naar de literatuur. Ik begon met google scholar. De volgende zoek termen heb ik gebruikt. What is happiness, How does happiness work, Moleculair working of happiness, Happiness in people Google scholar heeft mij boeken en wetenschappelijke artikellen gegeven.
Jacobsen, B. (2007, 1 januari). What is Happiness? | Existential Analysis: Journal of the Society for Existential Analysis.
Easterlin, R. A. (2003). Explaining happiness. Proceedings Of The National Academy Of Sciences Of The United States Of America -Veenhoven, R. (1991, 1 januari). Questions on Happiness.
De abstract van What is Happiness? | Existential Analysis: Journal of the Society for Existential Analysis. zegt het volgende. “Happiness as experienced by ordinary people has been the object in both sociological and psychological studies. The concept of happiness used in the studies of Positive and Humanistic Psychology varies from subjective well-being, to the fulfilment of life goals. In Existential Psychology the concept of happiness has both bodily and spiritual dimensions. In this paper the concept of happiness will be analyzed and the use of it in existential psychology and therapy will be discussed. The contributions to the field of Buhler, Boss, Condrau, Heidegger and May will be examined to throw light on a vital phenomenon concerning us all.”
n deze paper wordt naar het concept “Geluk” gekeken dit houd in dat er wordt gekeken naar meerdere kanten van geluk bekijken. Waaronder het concept van geluk. Hoe het in de maatschappij werkt, in de Humanistische psychologie en het effect van geluk op de levens van mensen. Deze tekst is gekozen omdat het een diepe kijk neemt door de ogen van een socioloog. het heeft goede punten en veel info die relevant is zoals de manier waarop verschillende factoren invloed hebben op iemands geluk.
In deze paper wordt gekeken naar sociale enquêtes en wat deze data zegt over de omstandigheden van geluk. Er wordt ook gezegd dat Psychologen hun model twijfelachtig is en dat het bepaalde levens omstandigheden en levens gebeurtenissen niet in zich opneemt. Dit zijn dan getrouwd zijn of scheiding. Ook bijvoorbeeld een zware onbekwaamheid of mentale worsteling zoals depressie of adhd. Deze hebben een langdurig effect op hoe een persoon geluk ervaart. Deze paper is dus belangrijk voor ons onderzoek dit omdat er factoren in staan die ook moeten worden meegenomen. Dit zijn dus bijvoorbeeld: Mentalegezondheid, Thuis situatie, Voel je je op je plek in de stad waarin je woont (Soms is het moeilijk om in een nieuwe stad te leven vooral als een eerste jaars), Of iemand een international is. Weg zijn van je ouders en je huis waar je niet zomaar terug naar toe kan is ook een mentale druk die je geluk langdurig kan aantasten.
Met deze denkwijze hebben wij daarom gekozen om deze paper te gebruiken.
Hieruit kan worden opgemaakt dat er naar verschillende perioden wordt gekeken. Dit zijn de antieke Griekse filosofie, De Na-verlichting west europeese morale filosofie, “Utilitarianism” specifiek en de huidige kwaliteit van leven onderzoeken in rijke welvarende staten. deze paper bekijkt het in de progressie van 7 klasieke onderwerpen
The following issues will be considered:
Deze onderwerpen geven ons goeie informatie om vragen op te bouwen. ook wordt er bijvoorbeeld in het onderwerp “Can happiness be measured” sub onderwerp “Assesment by quetstioning” besproken of een enquête wel een goed beeld weergeeft en of mensen zelf wel kunnen zien of ze gelukkig zijn of niet. Echter vinden de onderzoekers dat mensen meestal wel bewust zijn van het genot van hun leven. Als we naar de conclusie kijken bij onderwerp 5 wordt verteld dat er weinig kennis en onderzoek is over welke voorwaarden zorgen voor een positieve waardering van het leven.
Na deze tekst te lezen ben ik tot de conclusie gekomen dat een enquête een goede manier is om geluk te meten van de studenten, dat de factoren die we uitzoeken onderbouwt moeten worden met onderzoek en dat het dan alsnog niet helemaal zeker een goeie meting is omdat de voorwaarden nog best onbekend zijn
Uit deze literatuur kan ik een paar vragen halen. Ik zie dat de vragen moeten bestaan uit een deel omgeving hiermee wil ik zeggen vragen naar iemands omgeving. Dit kan zijn de stad waarin iemand woont en of ze hier te vreden zijn. Hun woonsituatie dit houd in huis en huisgenoten of ouders + broers en zussen.
Ik heb met storm nog besproken hoe wij de enquete gaan maken (dit is via een call gesprek gegaan) en we gaan hier ook nog verder naar kijken maar voor nu is google forms de beste optie die wij hebben kunnen vinden. Dit omdat google forms anoniem kan zijn dit doe je door bepaalde instellingen aan te passen. Verder heeft google forms de mogelijkheid om een csv document te generen dit is handig voor ons want dan is onze data al mooi geformat en hoeven wij alleen voor NA’s te controleren (NA’s kunnen voor conflicten zorgen wanneer je plotjes maakt.)
enquête vragen maken en structuur van de enquête bepalen
Tasks
Gister heb ik me verdiept in de literatuur, dit waren de papers van Jacobsen, B. (2007, 1 januari). What is Happiness?, Easterlin, R. A. (2003). Explaining happiness en Veenhoven, R. (1991, 1 januari). Questions on Happiness.
Hoe gelukkig voel je je nu. Deze vraag hebben we er in gezet om gelijk een niveau te krijgen. Dit voor dat de student de vragen gaat beantwoorden. Dit doen we omdat het kan zijn dat de student tijdens de vragen gaat nadenken over dingen en dit kan invloed hebben op iemands geluk. Bijvoorbeeld een vraag over of iemand een goede relatie met zijn ouders heeft zou negatieve herinneringen kunnen oproepen waarmee ze de rest van de enquête mee kunnen zitten.
Ben je gelukkig met je fysieke gesteldheid. De fysieke gesteldheid is per persoon anders qua invloed op het geluk. Wanneer we kijken naar mensen die veel sporten is er een mentale aandoening genaamd “Body Dysmorphic Disorder” ook wel body dysmorphia. Deze mentale aandoening kan in lichte en zwaardere vormen voorkomen. De reden dat we deze specifiek benoemen is omdat deze vrij vaak voorkomt in de groepen tieners - jong volwassenen. Het komt er op neer dat een persoon met body dysmorphia vaak zichzelf slechter ziet dan wat werkelijkheid is. Dit kan een langdurig effect hebben op iemands mentale gezondheid en geluk.
Hoe belangrijk is je (fysieke-) gezondheid voor je geluk? Deze vraag is om te kijken hoeveel waarde iemand hecht aan zijn fysieke gezondheid dit kunnen we samen paren met de vorige vraag. Het is bekend dat er veel studenten sport verenigingen zijn en dus zouden sommige studenten die hier veel aanhechten ook veel aan hun fysieke gesteldheid hechten. Wanneer bijvoorbeeld een student bij een vereniging zit voor roeien en deze krijgt een blessure waardoor hij en zijn team niet mee kunnen doen aan een wedstrijd. Zou dit kunnen leiden tot een schuld gevoel waardoor dus het extra belangrijk is voor zijn geluk dat hij een goede fysieke gesteldheid heeft. Daarom stellen we deze vraag.
Deze vragen over fysiek geluk en waarom dit belangrijk is zijn terug te vinden in de paper van Veenhoven, R. (1991, 1 januari) onder het kopje “HOW DO PEOPLE ASSESS THEIR HAPPINESS?” - Most questions and speculations about the inner fabrication of happiness concern mental processes. Yet it is widely acknowledged that a physical substrate is involved as well.
Dit verteld ons dus dat het fysieke deel van iemand ook invloed heeft op het geluk.
Hoe belangrijk is contact buiten school met andere voor jouw geluk? Wanneer we kijken naar wat een mens nodig heeft dan komt sociaal zijn met andere mensen hoog voor op de lijst. In de paper van Veenhoven, R. (1991, 1 januari) hoofdstuk - Can happiness be learned? wordt er ons het volgende verteld “two comprehensive attempts to influence happiness by cognitive retraining have been reported (Lichter et al., 1980; Fordyce, 1977). These “happiness courses” required subjects to practice self-suggestion of happiness, to lower their aspirations and to engage more in behaviour already proven to be beneficial, such as socializing. Experimental groups showed improvement in happiness over control groups. None of these follow ups cover more than a few months. Hence, it is not yet clear whether happiness can be boosted permanently in this way.” Wat hier wordt gezegd is dat in een experiment waar mensen worden her opgeleid in het sociale vlak door bijvoorbeeld te gaan “socializing” er toch een verhoging in iemands geluk komt. Deze experimenten waren niet heel lang dus het is niet bewezen hiermee of dit een langdurig effect is. Om deze reden nemen we deze vraag mee in onze enquête omdat een goede sociale omgeving en “socializing” dus (tijdelijk-)geluk kan veranderen.
Ik vind het belangrijk om buitenschool sociale activiteiten te doen. Dit is in combinatie met de vorige vraag. De gedachte hier achter is om te kijken hoe belangrijk het sociale contact is voor iemand zodat we kunnen speculeren of deze persoon meer een introverte of extroverse persoonlijkheid heeft. Dit geeft ons weer meer een perspectief over ons eind oordeel voor deze enquete.
Ik heb een goede relatie met mijn ouders. Deze vraag is om te kijken wat de band is van de student met zijn ouders. Dit komt omdat in de paper van Easterlin, R. A. (2003). Explaining happiness. werdt genoemd dat sommige factoren een langdurig effect kunnen hebben op iemands geluk. in het sub-hoofdstuk over explaining happiness wordt het volgende gezegd “Life circumstances other than those discussed here, such as friend-ships, work, and employment status, affect happiness too, but income, family, and health conditions are typically cited most often by people as sources of happiness (56).” Hierin zien we dus dat volgens de paper family vaak wordt genoemd als een bron van geluk. Deze vraag die dus naar een deel van de familie vraagt is daardoor dus niet te missen.
Ik ben gelukkig met mijn woonsituatie. Deze vraag is weer om te kijken naar een externe factor die iemands algemene geluk zou kunnen beïnvloeden. De vraag gaat alleen om degene zijn woonsituatie met betrekking tot huisgenoten, het huis zelf en dus niet de stad waarin deze student woont.
Het antwoorden van deze vragen moet op een bepaalde manier zodat hier een nette grafiek uit kan worden gehaald. Ik heb aangegeven bij mijn groepsgenoot dat een cijfer van 0-5 of 0-10 goede opties zijn omdat deze bekend zijn en vaak worden gebruikt in enquêtes die een duidelijke mening moeten weer geven. Ik heb met mijn teamgenoot het besproken en wij zijn uitgekomen op de 0-10 beantwoording methoden. Dit omdat 0 = 0% en 10 = 100%.
Wij hebben ook dit protocol geschreven.
Door middel van een QR-code kan de student deze scannen en een Google form invullen met de vragen. De vragen hebben een schaal van 0-10 waarbij 0 het slechtste is en 10 het beste. De flyers nemen de meters mee naar de Universitaire bibliotheken van de studenten campussen om zoveel mogelijk verschillende studenten te ondervragen.
De enquête wordt ook op plekken rond de campus opgehangen. Dezelfde posters als die we aan de studenten laten zien. De link van de enquête zal eventueel nog worden gemailed naar studies / scholen zelf. Dit is zodat we een groot genoege groep kunnen krijgen zodat er genoeg data is. Ook om te zorgen dat de populatie willekeurig is en niet zwaar wordt beïnvloed door 1 bepaalde groep.
Posters ophangen in leiden
Tasks
Poster gemaakt door Storm
De poster is door
storm gemaakt - ik heb alleen na gelopen en suggesties over de
verwoording gemaakt.
Om zoveel mogelijk data te krijgen zijn wij zo snel mogelijk naar de gekozen steden gegaan. Leiden was het verste weg dus deze gaan wij als eerste heen. Wij begonnen met posters ophangen om 13:30. Dit was in het lipsius gebouw, we gingen elk gebouw af waar we 2-3 posters ophangen. Dit deden we in de mei vakantie. Wij denken echter dat dit niet een enorme invloed zou moeten hebben op hoeveel data we kunnen verkrijgen. Dit omdat de universiteiten niet aan de mei vakantie doen en het dus in elk universiteit’s gebouw waar we waren het druk is. Het hbo en mbo hebben wel deze vakantie maar ondanks dat zijn we wel binnen gelaten in het hbo gebouw en hebben wij hier ook 3 posters opgehangen.
Hier onder is te zien hoe een opgehangen poster er uit ziet op een
poster bord. Tijdens deze posters
op hangen hebben wij ook geprobeerd studenten aan te spreken. Deze geven
ons helaas het antwoord “Ik moet naar de les sorry” of “Ik heb geen
tijd”. Wij merken dus dat deze studenten er niet voor open staan om 3
minuten de tijd te nemen om onze enquête te beantwoorden.
Bij de service balies hebben wij ook gevraagd of ze deze konden laten zien aan of ophangen. Dit kan echter niet maar ze gaven ons wel het idee meerdere keren om te emailen. Het emailen van de universiteit zelf, de faculteit, studie & studenten verenigen.
We zijn ook nog naar het LUMC gegaan omdat hier toch ook veel studenten komen hier hebben we maar 2 posters opgehangen omdat we niet het gehele ziekenhuis door mochten en er weinig poster borden zijn.
**Posters ophangen in Utrecht*
Tasks
Vandaag zijn we in Utrecht. Hetzelfde protocol als in leiden is hier gevolgd. We zijn begonnen op de padualaan bij het gebouw van de hogeschool van Utrecht. We gaan hier net als in leiden elk gebouw af en zoeken de poster borden op. We hebben nog aan de service balies gevraagd waar we de posters mogen neer hangen en dit verwees on weer naar de poster borden.
In Utrecht mogen wij ook in de studenten cafes en de restaurantjes + de ub posters ophangen. Dit zijn plekken waar de studenten wat vaker met andere dingen bezig zijn dan alleen focus op hun lessen waardoor wij verwachten dat hierdoor de enquêtes meer worden gezien!
Uit eindelijk zijn er in elk gebouw van zowel de Universiteit als de Hogeschool een paar posters opgehangen.
Email idee uitwerken
Tasks
Tijdens het ophangen van de posters is ons het idee binnen geschoten om ook nog email’s te sturen naar verschillende groepen. Hier onder vallen de universiteiten, Hbo’s en mbo’s email’s zelf maar ook de studie verenigingen en misschien een paar studenten verenigingen ook de faculteiten.
De email moet netjes en professioneel zijn zodat dezelfde email naar iedereen kan worden gestuurd. Hierdoor krijg je geen conflicten in interpretatie.
Hallo, insert naam
Wij Storm en Jarno zijn studenten aan de Hanze Hogeschool Groningen. Wij hebben een onderzoek project waar wij kijken naar het geluk van studenten in verschillende studenten-steden. Wij sturen deze email om te vragen of het mogelijk is om de enquête van dit onderzoek in jullie app groep of via email te kunnen delen. De enquête is compleet anoniem. Het moet een goed beeld kunnen schetsen over het algemene geluk van een student. Wij gaan met deze data uiteindelijk onze onderzoek vraag beantwoorden “In welke studenten stad zijn studenten het gelukkigst?”
Alvast bedankt voor de hulp
Vriendelijke Groet
Storm & Jarno, studenten Hanzehogeschool.
Dit is de email en deze wordt ook nog een keer in het engels verstuurd in dezelfde mail. Hiermee verwijzen we met een vetgedrukte zin For english look below
Ons nieuwe protocol ziet er dus ook anders uit omdat wij de email er bij hebben gezet. deze ziet er nu zo uit
Door middel van een QR-code kan de student deze scannen en een Google form invullen met de vragen. De vragen hebben een schaal van 0-10 waarbij 0 het slechtste is en 10 het beste. De flyers nemen de meters mee naar de Universitaire bibliotheken van de studenten campussen om zoveel mogelijk verschillende studenten te ondervragen.
De enquête wordt ook op plekken rond de campus opgehangen. Dezelfde posters als die we aan de studenten laten zien. De link van de enquête zal eventueel nog worden gemailed naar studies / scholen zelf. Dit is zodat we een groot genoegen groep kunnen krijgen zodat er genoeg data is. Ook om te zorgen dat de populatie willekeurig is en niet zwaar wordt beïnvloed door 1 bepaalde groep.
Om extra mensen aan te spreken en zorgen dat de enquête nog verder wordt verspreid. Dit doen we door emails te sturen naar verschillende studieverenigingen en studenten verenigingen met een link en een netjese email waarin staat wat dit onderzoek is, waarvoor en door wie. Daarnaast sturen we het ook naar de mbo-scholen en de algemene kanalen van de hbo’s en de universiteiten. De email is hier onder te vinden.
Opzetten Algemene document + Emails verzamelen
Tasks
Emails verzamelen
Starten algemene document
Emails verzamelen van elke vereniging werd gedaan via de website Utrecht studenten stad https://utrechtstudentenstad.nl/studentenverenigingen waar alle soorten vereniging zijn van gezelligheid tot studieverenigingen. De studieverenigingen zijn wij naar op zoek.
Het algemene document
De leraar heeft ons voorzien van een bepaald template dat moet worden gevolgd.
Deze heeft verschillende dingen nodig
Een introductie
Materialen & Methoden
Materialen: Hier moet instaan wat je hebt gebruikt, welke versie je hebt gebruikt, een link waar dit is te downloaden of te gebruiken, wat het doet en waarvoor wij het hebben gebruikt. Dit zijn alle software tools, gebruikte bibliotheken/plugs en externe programma’s.
Methoden: Welke methodologieën met relevantie voor je project je hebt gebruikt. het doel, de toepassing en welke software en parameters zijn gebruikt. Eventueel kan er een flowchart worden gemaakt. De statistische methoden zijn gebruikt zet je hier ook neer. Wat heb je zelf in het kader van dit onderzoek ontwikkeld aan methodologieën. Hier moeten de namen van de scripts en programma’s en waar deze te vinden zijn in repo staan.
Resultaten
Discussie en Conclusies
Referenties
Natuurlijk moet hier ook worden gelet op het taalgebruik. Dit moet op een wetenschappelijke manier. Er moet een woordentelling gedaan dat wordt gedaan met de volgende code.
#install.packages(devtools)
#devtools::install_github("benmarwick/wordcountaddin", type = "source", dependencies = TRUE)
wordcountaddin:::text_stats()
## For information on available language packages for 'koRpus', run
##
## available.koRpus.lang()
##
## and see ?install.koRpus.lang()
##
## Attaching package: 'koRpus'
## The following object is masked from 'package:readr':
##
## tokenize
| Method | koRpus | stringi |
|---|---|---|
| Word count | 14290 | 13875 |
| Character count | 85008 | 85860 |
| Sentence count | 916 | Not available |
| Reading time | 71.4 minutes | 69.4 minutes |
Emails verzamelen + data bekijken
Tasks
Ik ben bezig gegaan met het zoeken naar emails van studie verenigingen, Dit heb ik gedaan door te zoeken op google naar “Studieverenigingen stad” hierdoor krijg je websites zoals die van de universiteit zelf https://www.universiteitleiden.nl/onderwijs/bachelors/studentenleven/studentenstad-leiden/studentenverenigingen of https://leidenstudentenstad.nl/studentenverenigingen waar ook nog wat opstaan. Storm heeft hier het grootste deel van de emails verzamelt waar ik soms een paar nog vond.
Om makkelijk wat antwoorden te verkrijgen hebben wij een paar klasgenoten gevraagd of deze ook de enquête zouden willen invullen. Dit hebben zowel mondeling als op onze klassen discord gevraagd.
De data inlezen en bekijken. Wanneer we naar de Google forms gaan is er een knop met “Bekijk in spreadsheets” Deze knop opent dan de Google spreadsheet app met alle data van de vragen. Hier in click ik op de download knop en worden meerdere opties gegeven voor wat voor document ik graag wil hebben. Uit deze check bleek dat we maar 7 antwoorden hadden. Deze kwamen allemaal door onze mondelinge verspreiding en de vraag aan of de klas deze zouden willen invullen.
# hier laad ik onze csv file in een variable genaamd student_hap_awn
student_hap_awn <- read.csv("student_hap_awn.csv")
# hier gebruik ik de "head()" command om te kijken of de juiste data typen er in zitten en de kolom namen te controleren
head(student_hap_awn)
## Tijdstempel Welke.sexe.ben.je...Which.sex.are.you..
## 1 29-4-2024 23:31:08 Vrouw (Female)
## 2 30-4-2024 10:21:58 Man (Male)
## 3 1-5-2024 13:50:47 Vrouw (Female)
## 4 1-5-2024 18:00:36 Vrouw (Female)
## 5 2-5-2024 18:29:14 Man (Male)
## 6 14-5-2024 15:50:23 Vrouw (Female)
## Welk.niveau.opleiding.doe.je...What.level.of.study.are.you.doing..
## 1 HBO
## 2 HBO
## 3 HBO
## 4 HBO
## 5 HBO
## 6 MBO
## In.welk.jaar.zit.je...In.what.year.are.you..
## 1 1e (1st)
## 2 1e (1st)
## 3 1e (1st)
## 4 1e (1st)
## 5 1e (1st)
## 6 1e (1st)
## In.welk.vakgebied.studeer.je...What.field.do.you.study.in..
## 1 Lifesciences
## 2 Lifesciences
## 3 Lifesciences
## 4 Technisch (Technical)
## 5 Technisch (Technical)
## 6 Anders (Other)
## Wat.is.jouw.huidige.woonsituatie...What.is.your.current.living.situation..
## 1 Thuiswonend (At home)
## 2 Thuiswonend (At home)
## 3 Thuiswonend (At home)
## 4 Thuiswonend (At home)
## 5 Thuiswonend (At home)
## 6 Thuiswonend (At home)
## In.welke.stad.studeer.je...In.which.city.do.you.study..
## 1 Groningen
## 2 Groningen
## 3 Groningen
## 4 Groningen
## 5 Groningen
## 6 Groningen
## Ben.je.een.nationale..of.internationale.student...Are.you.a.national.or.international.student..
## 1 Nationaal (National)
## 2 Nationaal (National)
## 3 Nationaal (National)
## 4 Nationaal (National)
## 5 Nationaal (National)
## 6 Nationaal (National)
## Ben.je.gelovig...do.you.believe.in.a.religion..
## 1 Nee (No)
## 2 Nee (No)
## 3 Ja (Yes)
## 4 Nee (No)
## 5 Nee (No)
## 6 Ja (Yes)
## Heb.je.op.dit.moment.een.relatie...Are.you.currently.in.a.relationship..
## 1 Nee (No)
## 2 Nee (No)
## 3 Ja (Yes)
## 4 Nee (No)
## 5 Nee (No)
## 6 Nee (No)
## Hoe.gelukkig.voel.je.je.nu....How.happy.are.you.right.now..
## 1 5
## 2 5
## 3 3
## 4 7
## 5 6
## 6 7
## Ben.je.gelukkig.met.je.fysieke.gesteldheid...Are.you.happy.with.your.physical.health..
## 1 7
## 2 9
## 3 7
## 4 8
## 5 3
## 6 3
## Hoe.belangrijk.is.je..fysieke...gezondheid.voor.je.geluk....How.important.is.your.physical.health.for.your.happiness..
## 1 6
## 2 8
## 3 8
## 4 6
## 5 9
## 6 10
## Hoe.belangrijk.is.contact.buiten.school.met.andere.voor.jouw.geluk....How.important.is.contact.with.people.outside.of.school.for.you..
## 1 8
## 2 7
## 3 6
## 4 7
## 5 8
## 6 10
## Ik.vind.het.belangrijk.om.buitenschool.sociale.activiteiten.te.doen....I.find.it.important.to.do.social.activity.s.outside.of.school..
## 1 8
## 2 7
## 3 4
## 4 6
## 5 6
## 6 10
## Ik.heb.een.goede.relatie.met.mijn.ouders....I.have.a.good.relationship.with.my.parents..
## 1 3
## 2 6
## 3 3
## 4 9
## 5 5
## 6 8
## Ik.ben.gelukkig.met.mijn.woonsituatie....I.am.happy.with.my.living.situation..
## 1 4
## 2 7
## 3 6
## 4 9
## 5 5
## 6 6
## Ik.voel.me.thuis.in.de.stad.waar.ik.woon....I.feel.at.home.in.the.city.where.I.live..
## 1 7
## 2 7
## 3 4
## 4 7
## 5 8
## 6 10
## Mijn.academische.prestaties.hebben.veel.invloed.op.hoe.gelukkig.ik.ben....My.academic.achievements.have.a.lot.of.influence.on.my.happiness..
## 1 9
## 2 10
## 3 3
## 4 6
## 5 8
## 6 7
## Ik.zit.in.een.goede.financiële.situatie....I.am.in.a.good.financial.situation..
## 1 2
## 2 8
## 3 9
## 4 7
## 5 9
## 6 9
## Geld.is.belangrijk.voor.mij.om.gelukkig.te.zijn...Money.is.important.for.me.to.be.happy..
## 1 9
## 2 8
## 3 6
## 4 7
## 5 6
## 6 7
## Ik.gebruik..verdovende...middelen..Zoals.wiet..alcohol.of.anders....I.use.alcohol.and.or.drugs.like.weed..
## 1 Ja (Yes)
## 2 Ja (Yes)
## 3 Ja (Yes)
## 4 Nee (No)
## 5 Nee (No)
## 6 Nee (No)
## Deze.middelen.gebruik.ik.om.mijzelf.gelukkiger.te.maken....I.use.the.drugs..alcohol.to.make.me.happier..
## 1 6
## 2 6
## 3 7
## 4 0
## 5 0
## 6 0
## Ik.zit.lekker.in.mijn.vel....I.feel.good.mentally..
## 1 4
## 2 5
## 3 5
## 4 8
## 5 4
## 6 8
## Hoe.gelukkig.ben.jij.na.deze.enquête....How.do.happy.qre.you.after.this.questionaire..
## 1 5
## 2 5
## 3 4
## 4 8
## 5 6
## 6 7
Nu we de data bekijken is te zien dat de kolom namen heel lang zijn. Dit is niet handig om mee te werken wanneer de data moet worden verwerkt. Dit heeft meerdere redenen maar om het in het kort te zeggen. De kolom namen worden soms weer gegeven op de grafiek en dit kan dus voor conflict zorgen als ze er zo uit zien en voor ons gemak om mee te werken is het moeilijk om constant deze lange strings met punten in te typen.
Hierom ga ik de kolom namen aan passen met colnames() deze functie kan alle kolom namen achter elkaar veranderen.
# Er is hier te zien dat de colnames dus in volgorde worden veranderd.
colnames(student_hap_awn) <- c("Tijd", "Sekse", "Niveau", "Opl_jaar","Vakgebied", "Woonsituatie", "Stad", "Nationaal_Internationaal", "Gelovig", "Relatie_stat", "Happy_RN", "Fys_Happy", "Fys_import", "Cont_buiten_school", "Na_school_soc", "Ouder_relatie", "Woonsituatie_geluk", "Thuis_in_stad", "academische_pres", "Financiele_sit", "Geld_geluk", "Verd_mid_gebr", "drugs_alc_geluk", "Mental_health", "Happy_after_quest")
# hier head ik weer onze data om te zien of de kolom namen zijn veranderd
head(student_hap_awn)
## Tijd Sekse Niveau Opl_jaar Vakgebied
## 1 29-4-2024 23:31:08 Vrouw (Female) HBO 1e (1st) Lifesciences
## 2 30-4-2024 10:21:58 Man (Male) HBO 1e (1st) Lifesciences
## 3 1-5-2024 13:50:47 Vrouw (Female) HBO 1e (1st) Lifesciences
## 4 1-5-2024 18:00:36 Vrouw (Female) HBO 1e (1st) Technisch (Technical)
## 5 2-5-2024 18:29:14 Man (Male) HBO 1e (1st) Technisch (Technical)
## 6 14-5-2024 15:50:23 Vrouw (Female) MBO 1e (1st) Anders (Other)
## Woonsituatie Stad Nationaal_Internationaal Gelovig
## 1 Thuiswonend (At home) Groningen Nationaal (National) Nee (No)
## 2 Thuiswonend (At home) Groningen Nationaal (National) Nee (No)
## 3 Thuiswonend (At home) Groningen Nationaal (National) Ja (Yes)
## 4 Thuiswonend (At home) Groningen Nationaal (National) Nee (No)
## 5 Thuiswonend (At home) Groningen Nationaal (National) Nee (No)
## 6 Thuiswonend (At home) Groningen Nationaal (National) Ja (Yes)
## Relatie_stat Happy_RN Fys_Happy Fys_import Cont_buiten_school Na_school_soc
## 1 Nee (No) 5 7 6 8 8
## 2 Nee (No) 5 9 8 7 7
## 3 Ja (Yes) 3 7 8 6 4
## 4 Nee (No) 7 8 6 7 6
## 5 Nee (No) 6 3 9 8 6
## 6 Nee (No) 7 3 10 10 10
## Ouder_relatie Woonsituatie_geluk Thuis_in_stad academische_pres
## 1 3 4 7 9
## 2 6 7 7 10
## 3 3 6 4 3
## 4 9 9 7 6
## 5 5 5 8 8
## 6 8 6 10 7
## Financiele_sit Geld_geluk Verd_mid_gebr drugs_alc_geluk Mental_health
## 1 2 9 Ja (Yes) 6 4
## 2 8 8 Ja (Yes) 6 5
## 3 9 6 Ja (Yes) 7 5
## 4 7 7 Nee (No) 0 8
## 5 9 6 Nee (No) 0 4
## 6 9 7 Nee (No) 0 8
## Happy_after_quest
## 1 5
## 2 5
## 3 4
## 4 8
## 5 6
## 6 7
nrow(student_hap_awn)
## [1] 33
Nu is de data makkelijker te lezen met de afkortingen. We zien dat de tijd tussen de eerste 6 antwoordde vrij significant is. Dit is te zien door te kijken naar de head van onze data. Hierin is in de tijd kolom te zien dat de eerste 6 antwoordde verspeid zijn over 15 dagen. Deze antwoorden komen ook allemaal uit Groningen. Dit betekent voor ons dat de posters die zijn opgehangen in Leiden en Utrecht geen effect hebben gehad en ons geen beantwoorde enquêtes heeft gegeven. Wij gaan dus nog meer emails sturen en op andere manieren mensen proberen te bereiken. Dit zou via sociale media kunnen of groepschats van studenten verenigingen.
# Hier zorg ik dat allen de kolom van de stad in deze nieuwe dataframe wordt gezet door middel van de select functie van dyplr
reactie_stad <- select(student_hap_awn, c(Stad))
# Hier wordt de plot aangemaakt het is een pie chart deze heeft een fill nodig voor de data.
plot_14_05_stad <- ggplot(reactie_stad, aes(x = " ", y = "Antwoord per stad", fill = Stad)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
ggtitle("Antwoord per stad", subtitle = "antwoorden op 14-05-2024") +
theme_void()
plot_14_05_stad + labs(caption = "Figuur 1: Antwoord per stad")
In deze plot is te zien dat eigenlijk bijna alle antwoorden uit Groningen komen. Ook is te zien dat de antwoorden tot nu toe geen 1 van Utrecht bevatten. Dit betekent voor ons dat de posters niet lijken te werken en dat wij echt onze resultaten via de emails zouden moeten ontvangen.
# Hier zorg ik dat allen de kolom van de sekse in deze nieuwe dataframe wordt gezet door middel van de select functie van dyplr
sekse_awn <- select(student_hap_awn, c(Sekse))
# Hier wordt de plot aangemaakt het is een pie chart deze heeft een fill nodig voor de data.
ggplot(sekse_awn, aes(x = " ", y = "Antwoord per stad", fill = Sekse)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 2: Antwoord per Sekse") +
ggtitle("Antwoord per sekse", subtitle = "antwoorden op 14-05-2024") +
theme_void()
Er is te zien dat er een redelijke verdeling tussen de man en vrouw. De anders sekse heeft niet heel veel antwoorden. Deze heeft dus waarschijnlijk niet genoeg antwoorden om een goede conclusie uit te halen. Uit de antwoorden van de man en vrouw kunnen wij weer andere factoren met elkaar vergelijken zoals dus alcohol en drugs gebruik en hoe heeft dit invloed op het geluk.
# Hier zorg ik dat allen de kolom van de vakgebied in deze nieuwe dataframe wordt gezet door middel van de select functie van dyplr
vakgebied_awn <- select(student_hap_awn, c(Vakgebied))
# Hier wordt de plot aangemaakt het is een pie chart deze heeft een fill nodig voor de data.
ggplot(vakgebied_awn, aes(x = " ", y = "Antwoord per Vakgebied", fill = Vakgebied)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 3: Antwoord per Vakgebied") +
ggtitle("Antwoord per Vakgebied", subtitle = "antwoorden op 14-05-2024") +
scale_fill_viridis_d() + #ik kies hier voor een andere kleur zodat het verschil tussen de groepen beter is te zien.
theme_void()
## Scale for fill is already present.
## Adding another scale for fill, which will replace the existing scale.
In het vakgebied is veel variatie. de grootste twee sectoren zijn Anders en Technisch. Sociaal en lifesciences zijn ook heel groot. Dit is mooi omdat het hierdoor beter mogelijk is om de verschillende vakgebieden met elkaar vergelijken.
# Hier zorg ik dat allen de kolom van de Woonsituatie in deze nieuwe dataframe wordt gezet door middel van de select functie van dyplr
woonsit_awn <- select(student_hap_awn, c(Woonsituatie))
# Hier wordt de plot aangemaakt het is een pie chart deze heeft een fill nodig voor de data.
ggplot(woonsit_awn, aes(x = " ", y = "Antwoord per Woonsituatie", fill = Woonsituatie)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 4: Antwoord per Woonsituatie") +
ggtitle("Antwoord per Woonsituatie", subtitle = "antwoorden op 14-05-2024") +
theme_void()
De antwoorden van de woonsituatie zijn redelijk door de helft verdeeld. Wat goed is omdat dit betekent dat wanneer wij de andere factoren vergelijken er voor beide genoeg antwoorden zijn om een redelijke conclusie te trekken.
# Hier zorg ik dat allen de kolom van de vakgebied in deze nieuwe dataframe wordt gezet door middel van de select functie van dyplr
NatInt_awn <- select(student_hap_awn, c(Nationaal_Internationaal))
# Hier wordt de plot aangemaakt het is een pie chart deze heeft een fill nodig voor de data.
plot_14_05_natint <- ggplot(NatInt_awn, aes(x = " ", y = "Antwoord Nationaal of internationaal", fill = Nationaal_Internationaal)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
ggtitle(" Antwoord Nationaal of internationaal", subtitle = "antwoorden op 14-05-2024") +
theme_void()
plot_14_05_natint + labs(caption = "Figuur 5: Antwoord Nationaal of internationaal")
Bij de antwoorden tussen Nationaal en internationaal is er duidelijk te zien dat er veel meer antwoorden zijn van Nationaal. Dit betekent dus dat we dus dat wij niet de internationale antwoorden kunnen vergelijken met de nationale op dit moment.
# Hier zorg ik dat allen de kolom van de Gelovig in deze nieuwe dataframe wordt gezet door middel van de select functie van dyplr
Gelovig_awn <- select(student_hap_awn, c(Gelovig))
# Hier wordt de plot aangemaakt het is een pie chart deze heeft een fill nodig voor de data.
ggplot(Gelovig_awn, aes(x = " ", y = "Antwoord Gelovig", fill = Gelovig)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 6: Antwoord Gelovig") +
ggtitle("Antwoord Gelovig", subtitle = "antwoorden op 14-05-2024") +
theme_void()
Bij de antwoorden voor of iemand wel of niet gelovig is, is er duidelijk te zien dat er veel meer antwoorden zijn voor niet dan wel. Dit betekent dus dat we dus dat wij niet voor wel gelovigen een goed conclusie kunnen maken omdat hier veel te weinig antwoorden voor zijn. Deze factor is dus nu ook niet heel handig om mee te nemen in het eind product.
# Hier zorg ik dat allen de kolom van de Gelovig in deze nieuwe dataframe wordt gezet door middel van de select functie van dyplr
Relatie_stat_awn <- select(student_hap_awn, c(Relatie_stat))
# Hier wordt de plot aangemaakt het is een pie chart deze heeft een fill nodig voor de data.
ggplot(Relatie_stat_awn, aes(x = " ", y = "Antwoord Relatie status", fill = Relatie_stat)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 7: Antwoord Relatie status") +
ggtitle("Antwoord Relatie status", subtitle = "antwoorden op 14-05-2024") +
theme_void()
Bij de antwoorden voor of iemand wel of niet een releatie heeft, is er te zien dat er veel meer antwoorden zijn voor nee dan ja. Dit betekent dus dat we dus dat wij niet voor mensen wel in een relatie een goede conclusie kunnen geven omdat hier te weinig antwoorden voor zijn. Deze factor is dus nu niet heel handig om mee te nemen in het eind product.
Power-analyse Een power-analyse is een statistische methode die gebruikt wordt om verschillende aspecten van een onderzoek te bepalen die belangrijk zijn. Het kan bijvoorbeeld gebruikt worden om de steekproef grote te bepalen. Het beperken van type 1 en type 2 fouten. Een type 1 fout is het vinden van een onterecht effect, een type 2 fout is het niet vinden van een echt effect. Dus het draagt bij aan de betrouwbaarheid en validiteit van de onderzoeksresultaten.
Er zijn verschillende dingen nodig om een power analyse te doen sig.level deze geeft de waarschijnlijkheid op het afwijzen van de nul hypothese wanneer het waar is. Ik heb hier 0.05 gebruikt omdat dit de meest standaard gebruikte invulling is.
Power, is de kans van het correct afwijzen van de null hypothese wanneer het niet waar is. hoe hoger de power wordt gezet hoe minder het risico op een type 2 error bij ons is deze op 0.8 gezet omdat dit weer een standaard niveau is. voor kritische studies wordt 0.9 gebruikt maar hoe hoger de power hoe hoger de sample grote
d is een maat die zegt hoe groot het verschil is tussen de gemiddelde waarden van twee groepen. Het doet dit door het verschil te meten in termen van standaarddeviaties. Dit helpt ons om te begrijpen hoe sterk of groot het waargenomen effect is
N = onze sample grote. Dit is de groep van geobserveerde personen.
#power test
#hier doe ik een pwr test waar ik de n zelf invul
power1 <- pwr.t.test(sig.level = 0.05, power = 0.8, n = 17, alternative = "two.sided")
#hier doe ik een powertest waar de n wordt gegeven deze N = per groep
power2 <- pwr.t.test(d = 0.5, sig.level = 0.05, power = 0.8 , alternative = "two.sided")
power1
##
## Two-sample t test power calculation
##
## n = 17
## d = 0.9910032
## sig.level = 0.05
## power = 0.8
## alternative = two.sided
##
## NOTE: n is number in *each* group
power2
##
## Two-sample t test power calculation
##
## n = 63.76561
## d = 0.5
## sig.level = 0.05
## power = 0.8
## alternative = two.sided
##
## NOTE: n is number in *each* group
ik heb bij n 17 ingevuld omdat wij 33 resultaten totaal hebben en ik ga hiermee alleen in deze analyse er van uit dat we 2 groepen hebben van elk 17 personen ik kon niet namelijk halve personen meten.
Uit de power1 is het volgende te halen de d = 0.9910032 wat zegt dat met de hoeveelheid kandidaten dat we nu hebben er een groot verschil is tussen de groepen in onze
uit de power2 komt uit dat als wij 2 even groepen willen vergelijken hebben wij voor een medium effect level van d = 0.5, een power van 0.8 en een sig level van 0,05 hebben wij ongeveer 64 personen per groep nodig dus ongeveer 128 personen in totaal.
Meer qr codes ophangen + overleg leraar
Tasks
Door het lage aantal antwoorden zijn storm en ik gaan overleggen en hebben wij besloten om ons eerdere plan om de qr code te delen via onze persoonlijke sociale media en de studievereniging app groepen waar wij inzitten. Voor op onze sociale media hebben wij de posters als plaatje geplaatst. Het bericht in de app groepen ging zoals de email echter werd hier niet gevraagd of ze deze wilden verspreiden maar invullen.
Daarnaast zijn we door alle Hanze gebouwen gaan lopen en hebben wij op duidelijk zichtbare plekken posters opgehangen. Deze plekken zijn poster borden, Snoep automaten, op uitgangen waar ook andere posters hingen. in bepaalde frames waar andere posters in hingen. Wij wilde deze graag duidelijker zichtbaar hebben omdat we uit de ervaring van leiden en Utrecht kunnen halen dat niet veel studenten kijken naar de poster borden. Als ze dit wel doen vullen ze nog niet altijd de poster in. Vandaar deze wat andere plekken.
Toen wij aan het einde van de dag keken op hoeveel enquête antwoorden zaten was deze gestegen van de 7-8 naar de 26.
Kijken welke data het belangrijkste is
Tasks
Als we onze data vandaag bekijken is te zien dat we op 29 antwoorden zitten.
student_hap_awn_NUM <- select(student_hap_awn, c(Happy_RN,Fys_Happy,Fys_import, Cont_buiten_school,Na_school_soc,Ouder_relatie,Woonsituatie_geluk,Thuis_in_stad,academische_pres,Financiele_sit,Geld_geluk,drugs_alc_geluk,Mental_health,Happy_after_quest))
head(student_hap_awn_NUM)
## Happy_RN Fys_Happy Fys_import Cont_buiten_school Na_school_soc Ouder_relatie
## 1 5 7 6 8 8 3
## 2 5 9 8 7 7 6
## 3 3 7 8 6 4 3
## 4 7 8 6 7 6 9
## 5 6 3 9 8 6 5
## 6 7 3 10 10 10 8
## Woonsituatie_geluk Thuis_in_stad academische_pres Financiele_sit Geld_geluk
## 1 4 7 9 2 9
## 2 7 7 10 8 8
## 3 6 4 3 9 6
## 4 9 7 6 7 7
## 5 5 8 8 9 6
## 6 6 10 7 9 7
## drugs_alc_geluk Mental_health Happy_after_quest
## 1 6 4 5
## 2 6 5 5
## 3 7 5 4
## 4 0 8 8
## 5 0 4 6
## 6 0 8 7
Storm en ik gingen kijken naar wat voor grafieken wij willen om onze data te laten zien in ons eindproduct. de grafieken die wij waarschijnlijk gaan gebruiken zijn.
Radarplot, Deze kan snel veel factoren laten zien en daaruit kan in een snelle blik al een mening of conclusie worden gevormd
# Create data: note in High school for Jonathan:
data <- as.data.frame(matrix( sample( 2:20 , 10 , replace=T) , ncol=10))
colnames(data) <- c("math" , "english" , "biology" , "music" , "R-coding", "data-viz" , "french" , "physic", "statistic", "sport" )
# To use the fmsb package, I have to add 2 lines to the dataframe: the max and min of each topic to show on the plot!
data <- rbind(rep(20,10) , rep(0,10) , data)
# Check your data, it has to look like this!
# head(data)
# Custom the radarChart !
radarchart( data , axistype=1 ,
#custom polygon
pcol=rgb(0.2,0.5,0.5,0.9) , pfcol=rgb(0.2,0.5,0.5,0.5) , plwd=4 ,
#custom the grid
cglcol="grey", cglty=1, axislabcol="grey", caxislabels=seq(0,20,5), cglwd=0.8,
#custom labels
vlcex=0.8
)
# https://r-graph-gallery.com/142-basic-radar-chart.html dit voorbeeld is gehaald van de r-graph-gallery website.
Hier is een voorbeeld voor hoe een Radarplot er uit ziet. Met deze plot zijn meerdere factoren tegelijk te vergelijken. Dit is voor ons handig omdat wij op verschillende factoren dingen hebben gevraagd.
Scatterplot, Het scatter plot is handig om 2 groepen te vergelijken. In ons eind product willen we graag meerdere groepen met elkaar vergelijken. Dit zijn dan bijvoorbeeld sekse, Niveau, Opleidings jaar, Relatie status.
# basic scatterplot
ggplot(iris, aes(x=Sepal.Length, y=Sepal.Width)) +
geom_point()
Hier is een voorbeeld van een scatterplot. Het is mooi te zien waar data zich bevind. Het enigste nadeel aan deze plot is dat de dot’s elkaar ook kunnen overlappen. Hier is echter wel een oplossing door jitter te gebruiken. jitter kan de dot’s een klein beetje uit elkaar zetten waardoor het originele resultaat zo goed mogelijk wordt behouden.
boxplot, De boxplot laat meerdere dingen zien dit zijn de mediaan, De 25ste en 75ste percentiel, De maximum en de minimum en natuurlijk de uitschieters. Deze dingen geven de lezer goede informatie over wat er aan de hand is met de data.
ggplot(mtcars, aes(x=as.factor(cyl), y=mpg)) +
stat_boxplot(geom = "errorbar",width = 0.25) +
geom_boxplot() +
xlab("cyl")
in Dit voorbeeld is dus duidelijk te zien dat er 3 cylinder typen zijn. die worden vegeleken op mijl per gallon. er is mooi zien bij de 8 cylinder dat er 2 uitschieters zijn.
#Hier geef ik nieuwe colnames zodat ik makkelijker de data kan oproepen wanneer ik hiermee werk voor de grafieken
colnames(student_hap_awn) <- c("Tijd", "Sekse", "Niveau", "Opl_jaar","Vakgebied", "Woonsituatie", "Stad", "Nationaal_Internationaal", "Gelovig", "Relatie_stat", "Happy_RN", "Fys_Happy", "Fys_import", "Cont_buiten_school", "Na_school_soc", "Ouder_relatie", "Woonsituatie_geluk", "Thuis_in_stad", "academische_pres", "Financiele_sit", "Geld_geluk", "Verd_mid_gebr", "drugs_alc_geluk", "Mental_health", "Happy_after_quest")
# Hier zorg ik dat allen de kolom van de stad in deze nieuwe dataframe wordt gezet door middel van de select functie van dyplr
Reactie_stad <- select(student_hap_awn, c(Stad))
# Hier wordt de plot aangemaakt het is een pie chart deze heeft een fill nodig voor de data.
ggplot(Reactie_stad, aes(x = " ", y = "Antwoord per stad", fill = Stad)) +
geom_col() +
ggtitle("Antwoorden per stad") +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 8: Antwoord per stad") +
theme_void()
Hier is te zien dat de ratio tussen de verschillende steden groot is. Amsterdam en leiden hebben 3 en 1 antwoord. Utrecht heeft echter geen enkele invulling.
De mails die wij hebben verstuurd zijn aangekomen en wij hebben op bepaalde ook antwoorden gekregen dat deze zouden worden doorgestuurd en de correcte link en qr codes zouden worden verspreid.
Herzien nieuwe data
Tasks
Vandaag is er een mail verstuurd via onze eigen facultiteit in de life science sector daardoor zijn onze antwoorden van 30-35 naar 76 gegaan. Dit zijn echter wel weer antwoorden die verkregen zijn vanaf Groningen dit betekent dus dat we nog steeds met het probleem zitten dat er nog maar 4 mensen buiten Groningen zijn. Hierdoor is het voor ons op dit moment niet mogelijk om de gekozen hypthose te beantwoorden hier door moeten wij het algemene plan aan passen.
student_hap_awn_28_05 <- read.csv("Student_hap_awn_28_05.csv")
colnames(student_hap_awn_28_05) <- c("Tijd", "Sekse", "Niveau", "Opl_jaar","Vakgebied", "Woonsituatie", "Stad", "Nationaal_Internationaal", "Gelovig", "Relatie_stat", "Happy_RN", "Fys_Happy", "Fys_import", "Cont_buiten_school", "Na_school_soc", "Ouder_relatie", "Woonsituatie_geluk", "Thuis_in_stad", "academische_pres", "Financiele_sit", "Geld_geluk", "Verd_mid_gebr", "drugs_alc_geluk", "Mental_health", "Happy_after_quest")
#hier zie ik het verschil in antwoorden tussen de data van 14-05 en 28-05
nrow(student_hap_awn)
## [1] 33
nrow(student_hap_awn_28_05)
## [1] 62
dat betekent dat er 29 nieuwe antwoorden zijn binnen gekomen nadat de mail is uitgestuurd. Hierdoor kunnen we nu echt een goede kijk nemen in de nieuwe data en een iets betere schatting maken van geluk tussen de studenten.
# Hier zorg ik dat allen de kolom van de stad in deze nieuwe dataframe wordt gezet door middel van de select functie van dyplr
Stad_awn <- select(student_hap_awn_28_05, c(Stad))
# Hier wordt de plot aangemaakt het is een pie chart deze heeft een fill nodig voor de data.
plot_28_05_stad <- ggplot(Stad_awn, aes(x = " ", y = "Antwoord Nationaal of internationaal", fill = Stad)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 9: Antwoord Nationaal of internationaal") +
ggtitle(" Antwoord Nationaal of internationaal", subtitle = "antwoorden op 28-05-2024") +
theme_void()
# met deze functie zet ik de twee antwoorden per stad pie plots onder elkaar zodat visueel het verschil kan worden gezien
combined_plots <- grid.arrange(plot_14_05_stad, plot_28_05_stad, ncol = 1)
Hier is te zien dat de verschillen in antwoorden per stad nog steeds niet erg zijn veranderd en nu zijn er alleen meer antwoorden uit Groningen. verder niks uit utrecht wat erg jammer is. Hierdoor moeten wij nu de beslissing maken om op de antwoorden te focussen uit Groningen.
#Hier maak ik verschillende variabelen aan die gemidelden opslaan
gem_geluk <- student_hap_awn_28_05 %>%
mutate(average_col = Happy_RN + Happy_after_quest)
# de %>% zorgt dat ik in gem_geluk een mutatie kan maken, ik heb het geluk pre en after het beantwoorden van onze enquête. opgeteld en daarna gedeeld door 2 waardoor er een gemiddelde uitkomt voor elke student
gem_geluk <- gem_geluk %>%
mutate(average_col = average_col / 2)
# hier wil ik dat de gem geluk variabele nu alleen nog het gemiddelde geluk die in de average col staat en de sekse die er bij hoort zodat ik deze kan laten zien.
gem_geluk <- select(gem_geluk, c(Sekse, average_col))
# Hier gebruik ik gg plot om een netjese boxplot te maken die de 95% mediaan en alles netjes laat zien zodat het goed is te zien wat het verschil in gemiddelde geluk is per sekse
ggplot(gem_geluk, aes(x = Sekse, y = average_col, fill = Sekse)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
geom_boxplot() +
labs(caption = "Figuur 10: Het gemiddelde geluk per Sekse") +
ggtitle("Het gemiddelde geluk per Sekse", subtitle = "(Lijn in het vierkant is het gemiddelde)")
Als we hier kijken zien we de verschillen in het gemiddelde geluk per sekse is het opmerkelijk om te zien dat vrouwen gemiddeld gelukkiger zijn. ECHTER is ook te zien dat de Q1-Q3 van de mannen hoger ligt. er is wel duidelijk te zien dat mensen die zich anders identificeren toch wel het ongelukigste zijn.
Verder hebben storm en ik beslist dat de dingen waar we nu verder in ons onderzoek op ingaan de factoren in de vragen zullen zijn.
gem_geluk <- student_hap_awn_28_05 %>%
mutate(average_col = Happy_RN + Happy_after_quest)
# de %>% zorgt dat ik in gem_geluk een mutatie kan maken, ik heb het geluk pre en after het beantwoorden van onze enquête. opgeteld en daarna gedeeld door 2 waardoor er een gemiddelde uitkomt voor elke student
gem_geluk <- gem_geluk %>%
mutate(average_col = average_col / 2)
# hier wil ik dat de gem geluk variabele nu alleen nog het gemiddelde geluk die in de average col staat en de sekse die er bij hoort zodat ik deze kan laten zien.
gem_geluk <- select(gem_geluk, c(Niveau, average_col))
# Hier gebruik ik gg plot om een netjese boxplot te maken die de 95% mediaan en alles netjes laat zien zodat het goed is te zien wat het verschil in gemiddelde geluk is per Niveau
ggplot(gem_geluk, aes(x = Niveau, y = average_col, fill = Niveau)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
ylab("Gem Geluk") +
geom_boxplot() +
labs(caption = "Figuur 10: Het gemiddelde geluk per Niveau") +
ggtitle("Het gemiddelde geluk per Niveau", subtitle = "(Lijn in het vierkant is het gemiddelde)")
In deze Grafiek is het volgende te zien er zijn 4 niveaus waar het gemiddeld gelukkigste niveau de masters studenten zijn. Dit is te zien aan de lijn in het groene blok. Deze ligt het hoogste van allemaal. De volgende dichtstbijzijnde zijn de Bachelor studenten aan de Universiteit. Opmerkelijk ook is een uitschieter bij de MBO studenten waar 1 iemand zwaar ongelukkig is. De HBO studenten hebben de meeste spreiding in hun antwoorden.
Drugs_gebruik <- select(student_hap_awn_28_05,c(Niveau,Verd_mid_gebr,drugs_alc_geluk))
# Hier worden alle antwoorden die gelijk staan aan "Ja (Yes)" veranderd naar een 1 en alle andere antwoorden worden naar 0 veranderd
Drugs_gebruik <- Drugs_gebruik %>%
mutate(Verd_mid_gebr = ifelse(Verd_mid_gebr == "Ja (Yes)", 1, 0))
# hier wordt de 0 niet wordt meegerekend en deze wordt dus uit de dataframe gehaald.
Drugs_gebruik_per_niveau <- Drugs_gebruik %>%
filter(Verd_mid_gebr != 0)
# Hier wordt gg plot gebruikt om een netjese barplot te maken die mooi laat zien het verschil in antwoorden per niveau
ggplot(Drugs_gebruik_per_niveau, aes(x=Niveau, y=Verd_mid_gebr, fill = Niveau)) +
geom_bar(stat = "identity") +
ylab("Drugs gebruik") +
labs(caption = "Figuur 11: Drugs gebruik per niveau") +
theme(legend.position="none")
Het is duidelijk te zien wie het meeste drugs gebruikt in onze data. Echter is dit niet betrouwbaar. Dit is omdat in onze data het grootste deel van onze antwoorden komt van hbo studenten. Wat zorgt voor een disproportionele weergave.
# Hier zorg ik dat allen de kolom van de woonsituatie in deze nieuwe dataframe wordt gezet door middel van de select functie van dyplr
woonsit_awn <- select(student_hap_awn_28_05, c(Woonsituatie))
# Hier wordt de plot aangemaakt het is een pie chart deze heeft een fill nodig voor de data.
ggplot(woonsit_awn, aes(x = " ", y = "Antwoord per Woonsituatie", fill = Woonsituatie)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 12: Antwoord per Woonsituatie") +
ggtitle("Antwoord per Woonsituatie", subtitle = "antwoorden op 28-05-2024") +
theme_void()
De antwoorden van Thuiswonende vergeleken met uitwonende zijn wel redelijk gelijk verdeeld. Hiervan kunnen we dus wel een mooi verschil maken.
# hier wordt uit de student_hap_awn_28_05 dataframe het volgende gehaald: Woonsituatie,Verd_mid_gebr,drugs_alc_geluk deze worden in een nieuw data frame gezet
Drugs_gebruik_woonsit <- select(student_hap_awn_28_05,c(Woonsituatie,Verd_mid_gebr,drugs_alc_geluk))
# Hier worden alle antwoorden die gelijk staan aan "Ja (Yes)" veranderd naar een 1 en alle andere antwoorden worden naar 0 veranderd
Drugs_gebruik_woonsit <- Drugs_gebruik_woonsit %>%
mutate(Verd_mid_gebr = ifelse(Verd_mid_gebr == "Ja (Yes)", 1, 0))
# hier wordt de 0 niet wordt meegerekend en deze wordt dus uit de dataframe gehaald.
Drugs_gebruik_woonsit <- Drugs_gebruik_woonsit %>%
filter(Verd_mid_gebr != 0)
# Hier wordt gg plot gebruikt om een netjese barplot te maken die mooi laat zien het verschil in antwoorden per woonsituatie
ggplot(Drugs_gebruik_woonsit, aes(x=Woonsituatie, y=Verd_mid_gebr, fill = Woonsituatie)) +
geom_bar(stat = "identity") +
ylab("Drugs gebruik") +
labs(caption = "Figuur 13: Drugs gebruik per woonsituatie") +
theme(legend.position="none")
Er is niet een significant verschil te zien tussen het gebruik van drugs van thuiswonende tegenover het drugs gebruik van uitwonende.
# hier is een heel basic barplot die het gebruik van verdovende middelen laat zien in de mix van geluk door deze middelen
ggplot(Drugs_gebruik_woonsit, aes(x=drugs_alc_geluk, y=Verd_mid_gebr)) +
geom_bar(stat = "identity") +
xlim(0, 10) +
ylab("Frequentie (Aantal Personen") +
xlab("Geluk's gevoel door gebruik Drugs en of alcohol") +
labs(caption = "Figuur 14: Geluk's gevoel door gebruik Drugs en of alcohol") +
facet_wrap(~Woonsituatie)
Hier is het verschil in de verdeling mooi te zien. Er is te zien dat er een stijgende lijn is in de thuiswonende. Bij de uitwonende is het overal verdeeld met de meeste tussen de 5 en 7.5. Er kunnen meerdere redenen zijn waarom mensen geluk halen uit drugs en of alcohol. Dit kan zijn omdat de drugs hun mentale problemen onderdrukken. Ook kan er een sociaal onderdeel aan vast zitten. Een biertje doen op het teras met je vrienden kan ook voor geluk zorgen. Hierdoor zorgt alcohol dus indirect voor geluk omdat het een onderdeel is van het geheel met je vrienden praten en sociaal zijn. In het ergste geval halen mensen geluk uit de verdovende effecten van deze middelen.
# Hier maak ik een boxplot waar ik drugs_gebruik_woonsit als data gebruik daarna x = woonsituatie en de y drugs_alc_geluk + de fill ook woonsituatie hierdoor krijgen we een legenda en de bijbehorende kleuren. Daarna nog een xlabel met geluks gevoel
ggplot(Drugs_gebruik_woonsit, aes(x =Woonsituatie , y = drugs_alc_geluk, fill = Woonsituatie)) +
ylab("Geluk's gevoel door gebruik Drugs en of alcohol") +
xlab(" ") +
stat_boxplot(geom = "errorbar",
width = 0.25) +
labs(caption = "Figuur 15: Geluks gevoel door drugs of alcohol per woonsituatie") +
geom_boxplot()
Ik probeer hier met een boxplot ook nog te laten zien of studenten geluk gevoel krijgen van drugs en of alcohol gebruik. Echter vind ik zelf dat deze grafiek erg onduidelijk is en moeilijk is te lezen want de medianen komen op hetzelfde uit terwijl de Q1-Q3 van beide heel anders zijn. Deze zou ik dus niet in het einddocument zetten.
We kunnen ook kijken naar alcohol en drugs gebruikt tussen de sekse.
Drugs_gebruik_Sekse <- select(student_hap_awn_28_05,c(Sekse,Verd_mid_gebr,drugs_alc_geluk))
# Hier worden alle antwoorden die gelijk staan aan "Ja (Yes)" veranderd naar een 1 en alle andere antwoorden worden naar 0 veranderd
Drugs_gebruik_Sekse <- Drugs_gebruik_Sekse %>%
mutate(Verd_mid_gebr = ifelse(Verd_mid_gebr == "Ja (Yes)", 1, 0))
# hier wordt de 0 niet wordt meegerekend en deze wordt dus uit de dataframe gehaald.
Drugs_gebruik_Sekse <- Drugs_gebruik_Sekse %>%
filter(Verd_mid_gebr != 0)
# Hier wordt gg plot gebruikt om een netjese barplot te maken die mooi laat zien het verschil in antwoorden per Sekse
ggplot(Drugs_gebruik_Sekse, aes(x=Sekse, y=Verd_mid_gebr, fill = Sekse)) +
geom_bar(stat = "identity") +
ylab("Drugs gebruik") +
labs(caption = "Figuur 16: drugs gebruik per sekse") +
theme(legend.position="none")
Hier zijn de studenten die drugs gebruiken te zien per sekse. door weinig antwoorden van het anders sekse kunnen we deze niet meenemen in de vergelijking. De verdeling tussen de antwoorden van de man en vrouw zijn redelijk gelijk dus hier kunnen wij wel wat over zeggen. In deze bar plot is te zien dat vrouwen over het algemeen meer drugs en of alcohol gebruiken.
#Hier is een barplot te zien waar de frequentie x is en geluks gevoel y is.
ggplot(Drugs_gebruik_Sekse, aes(x=drugs_alc_geluk, y=Verd_mid_gebr)) +
geom_bar(stat = "identity") +
xlim(0, 10) +
ylab("Frequentie (Aantal Personen") +
xlab("Geluk's gevoel door gebruik Drugs en of alcohol") +
labs(caption = "Figuur 17: vergelijking geluk en gebruik drugs en alcohol") +
facet_wrap(~Sekse)
Deze plot laat geen resultaten voor anders en geeft ons ook een error waar het bepaalde rijen verwijderd omdat hier geen resultaten in staan. Dus om deze reden kunnen hem niet gebruiken in ons eind product. Het is alsnog wel interessant hom hier naar te kijken. Het is wel te zien dat vrouwen zich gelukkiger gevoelen door het gebruik van Drugs en of alcohol.
Relatie_ouder_28_05 <- select(student_hap_awn_28_05,c(Sekse,academische_pres,Ouder_relatie))
# Hier wordt een jitter plot gemaakt waar de academische prestatie vergeleken wordt met de relatie van de ouders.
ggplot(Relatie_ouder_28_05, aes(x=Ouder_relatie, y=academische_pres)) +
xlim(0, 10) +
ylim(0, 10) +
xlab("Relatie met ouders") +
ylab("academische prestaties invloed op geluk") +
geom_jitter(width = 0.2, alpha = 0.5) +
geom_point() +
facet_wrap(~Sekse) +
labs(caption = "Figuur 18: ouder relatie en geluks gevoel academie") +
theme(legend.position="none")
Deze grafiek vergelijkt de relatie met ouders met hoeveel de academische presestaties invloed heeft op het geluk va de student. Dit is een grafiek die niet heel goed is om meerdere redenen. De eerste reden is dat deze twee factoren niet relevant met elkaar zijn. De tweede reden is dat er geen duidelijk resultaat is.
gem_geluk_28_05 <- gem_geluk
Relatie_ouder_28_05 <- select(student_hap_awn_28_05,c(Sekse,academische_pres,Ouder_relatie))
Relatie_ouder_28_05 <- Relatie_ouder_28_05 %>%
mutate(average_col = gem_geluk_28_05$average_col)
ggplot(Relatie_ouder_28_05, aes(x=Ouder_relatie, y=average_col)) +
xlim(0, 10) +
ylim(0, 10) +
xlab("Relatie met ouders") +
ylab("Geluk") +
geom_jitter(width = 0.2, alpha = 0.5) +
geom_point() +
facet_wrap(~Sekse) +
labs(caption = "Figuur 19: Geluk vergeleken met relatie met ouders") +
theme(legend.position="none")
In deze grafiek heb ik de relatie met ouders en het geluk van de studenten naast elkaar gezet. Dit heb ik vervolgens op sekse gesorteerd en hier een scatter plot mee gemaakt. Ik heb geom_jitter gebruikt omdat het voorkomt dat sommige dots elkaar overlappen. Er is bij vrouwen duidelijk te zien hoe beter de relatie met diegene zijn ouders is hoe gelukkiger ze zijn. Bij de mannen is deze trend ook licht te zien maar minder duidelijk. Bij de ander seksen is het heel duidelijk dat met een goede relatie ze gelukkiger zijn en met een matige relatie zijn 2 ongelukkige mensen te zien.
Relatie_ouder_28_05_table <- table(Relatie_ouder_28_05$average_col, Relatie_ouder_28_05$Ouder_relatie)
chisq.test(Relatie_ouder_28_05_table)
##
## Pearson's Chi-squared test
##
## data: Relatie_ouder_28_05_table
## X-squared = 110.78, df = 105, p-value = 0.3307
De chi-kwadraattest kan verschillende hypothesen beoordelen. De
null-hypothese deze zegt dat de twee variabelen individueel zijn en geen
significante verbanden tonen. De alternatieve hypothese zegt dat de twee
variabelen niet individueel zijn omdat er een significante correlatie
is.
De chi kwadraat teststatistiek ook wel X-squared is de som van de
kwadraatverschillen tussen de verwachte en geobserveerde frequenties.
Dit wordt dan gestandaardiseerd door verwachte frequenties. Dit
statistiek is belangrijk om de volgende redenen. Het is een maat voor
afwijking tussen waargenomen en verwachte frequenties, een hulpmiddel
voor het toetsen van hypothesen en een basis voor het berekenen van de
p-waarde. Dit geeft ons een begrip van zowel het statistisch
significante effect als de vraag of we de null-hypothese moeten
verwerpen.
Het df staat voor vrijheidsgraden. Het wordt berekend door het aantal
categorieën in de kruistabel te tellen. dit is meestal het geval bij een
onafhankelijkheidstest. Het is belangrijk omdat het de verdeling van de
Chi-kwadraat beïnvloedt. Dit beïnvloedt dan weer de berekening van onze
p-waarde. De df is dus cruciaal omdat het de vorm van verdeling van de
Chi-kwadraat en de interpretatie van de testresultaten bepalen. het kan
dus ook helpen bij het bepalen of de waargenomen gegevens aanzienlijk
verschillen van de verwachte waarden. In onze data is geen significante
afwijking tussen de waargenomen en verwachte waarden. Aangezien een
X-squared waarde van 110.78 (p-waarde 0.3307) normaal gesproken niet als
significant wordt beschouwd bij 105 df.
De p-waarde speelt een cruciale rol bij het beoordelen van statistische hypothesen. Deze variabele helpt bij het vinden van een acceptabele basis voor data. omdat het een objectieve maat geeft voor het variabele van de compatibiliteit van de data met de nulhypothese. Met behulp van de o-waarde kunnen onderzoekers bepalen of hun resultaten significant zijn en of de nulhypothese moet worden verworpen. Het is onmogelijk om de nulhypothese te ontdekken als de p-waarde groter is dan het significantie niveau, dat doorgaans 0,05 is. Dit geeft aan dat het bewijs onvoldoende is om tot de conclusie te komen dat er geen significant verband bestaat tussen variabelen. P-waarde =< 0,05: Verwerpen de nulhypothese en komt tot de conclusie dat er een significant verband bestaat tussen de variabelen als de p-waarde kleiner is dan of gelijk is aan het significantie niveau. onze P-waarde is 0.3307 dit is dus groter dan 0.05 waardoor wij niet slagen in de null hypothese te verwerpen.
De conclusie uit deze data is dat er niet een grote connectie is tussen de variabelen academische prestatie en de relatie met een student zijn ouders.
Het schrijven van het eind product
Tasks
ik begon de dag met kijken in de template die aan ons is gegeven om te zien wat er allemaal nodig was voor het eind product. De dingen die ik op dat moment makkelijk kon uit typen waren de Intro, Abstract en de materialen.
Deze klinkten als volgt
Waarom dit onderzoek? Dit onderzoek is er om te kijken of er verschil zit in het geluk tussen verschillende studenten steden. Dit is belangrijk omdat het geluk van een persoon invloed kan hebben op verschillende factoren in zijn leven. Als we kijken naar Geluk omvat dit meerdere dingen. Een persoon kan heel gelukkig worden van een academische prestatie echter zijn er anderen die meer geluk halen uit een sociale ontmoeting. Deze verschillende factoren zijn in ons onderzoek gemeten. Hiervoor is literatuur gebruikt die diep in gaat op wat mensen door de jaren heen van geluk maakten, De paper van Veenhoven, R. (1991, 1 januari). Questions on Happiness kijkt hier naar in verschillende tijdperken. Verder zijn er bepaalde factoren naar boven gekomen die belangrijk zijn voor een mens wanneer het gaat over het meten van geluk.
Sekse, als er gekeken wordt naar het menselijk lichaam is er te zien dat er een verschil is tussen de mannelijke en vrouwelijke sekse in specifiek de hormonen. Dit heeft invloed op hoe geluk wordt ervaart. Wanneer een vrouw haar menstruatie ervaart kan deze een kort effect hebben op hoe gelukkig deze zich voelt. Hier heeft een man echter geen last van.
Niveau van de opleiding, Het is algemeen bekend dat mensen die een hoger opleiding doen vaker ongelukkiger zijn door mentale complicaties. Dit is niet te zeggen dat studenten van een lager niveau hier geen last van hebben echter is het een goede factor om te bekijken.
Welk jaar de student in zit, Wanneer iemand al meerdere jaren heeft gestudeerd zal deze een andere kijk hebben op het effect van de omgeving van zijn studentenstad. Hierdoor is een 1ste jaar student te vergelijking met een 3de jaar student interessant. Het zou kunnen zijn dat een student namelijk aan zijn stad went.
Vakgebied, De omgeving van een studie hangt af van iemands vakgebied. Wanneer een student een sociale studie doet zoals bedrijfskunde of social-work, Wordt deze in een omgeving gezet met andere studenten die over het algemeen ook socialer zijn. In een technische opleiding zijn studenten over het algemeen meer teruggetrokken. Dit zou dus ook invloed hebben op een student en wat voor prioriteiten deze heeft.
Woonsituatie (Uitwonend vs Thuiswonen), In het geval dat een student thuis woont zou deze wanneer het wordt gecombineerd met een slechte relatie met zijn ouders een langdurig effect kunnen hebben op zijn geluk en hoe deze verder zich mentaal voelt.
Geloving (Ja of Nee), Het is bekend dat mensen die gelovig zijn veel rust en mentale support halen uit hun geloof. Dit doen ze door het lezen van hun geloof gerelateerde literatuur en deze op hun eigen leven toe te passen. Het kan ook zijn dat de persoon steun haalt uit zijn omgeving met andere gelovigen.
Relatie (Ja of Nee), Het hebben van een partner kan goed en slecht zijn voor iemands geluk. Wanneer de relatie met deze persoon in een goede staat verkeerd zal deze persoon steun, support en andere postieve dingen naar iemands leven brengen. Wanneer deze in een slechte of verslechterende situatie verkeerd zal deze stress en ongelukkig heid brengen naar iemands situatie.
factoren in de vragen
Deze intro is echter nog niet af. er missen nog een paar dingen die ik met storm moet overleggen echter was deze afwezig aan het eind van de les en bespreken we dit op een ander moment.
Dit onderzoek gaat over, het geluk van studenten in verschillende studenten steden. De steden die wij hebben onderzocht zijn; Amsterdam, Groningen, Leiden en Utrecht. We hebben in dit onderzoek een enquête gebruikt om een data frame te maken waarmee we een goed grafisch overzicht kunnen geven van wat de resultaten zijn. Dit onderzoek is belangrijk omdat mentale gezondheid onder de studenten tegenwoordig veel in het nieuws is. Geluk is een groot deel van iemands mentale gezondheid daarom is het interessant om te weten in welke stad voor de studenten deze het hoogste ligt. De factoren die in dit onderzoek worden gebruikt gaan van persoonlijk naar omgevingsfactoren zodat er een duidelijk beeld kan worden geschetst waarin ook langdurige problemen worden meegenomen die invloed hebben.
In deze abstract heb ik een mix tussen aandachts pakkende zin bouw en verwoording gebruikt en het onderzoek zo duidelijk mogelijk proberen uit te leggen.
ik heb zelf alleen de materialen gemaakt omdat storm de methoden zal uitschrijven. Ik heb gekeken naar alles wat wij hebben gebruikt, hierbij heb ik een link gegeven en een versie of datum wanneer dit nodig is.
Student_awn_data_30_05 <- read.csv("Student_hap_awn_30_05.csv")
colnames(Student_awn_data_30_05) <- c("Tijd", "Sekse", "Niveau", "Opl_jaar","Vakgebied", "Woonsituatie", "Stad", "Nationaal_Internationaal", "Gelovig", "Relatie_stat", "Happy_RN", "Fys_Happy", "Fys_import", "Cont_buiten_school", "Na_school_soc", "Ouder_relatie", "Woonsituatie_geluk", "Thuis_in_stad", "academische_pres", "Financiele_sit", "Geld_geluk", "Verd_mid_gebr", "drugs_alc_geluk", "Mental_health", "Happy_after_quest")
reactie_stad <- Student_awn_data_30_05
#ik heb hier voor alleen groningen gefilterd dit omdat de andere steden anders de resultaten beïnvloeden en bij deze steden zit sowieso niet genoeg data om mee te nemen voor conclusies.
Student_awn_data_30_05 <- Student_awn_data_30_05 %>%
filter(Stad == "Groningen")
#Maak een aparte vector met alle numerieke data
numerieke_data <- select(Student_awn_data_30_05, c(11:15, 17:21, 23:25))
Ik heb de andere steden weg gefilterd zodat de data alleen maar van Groningen komt.
reactie_stad <- select(reactie_stad, c(Stad))
ggplot(reactie_stad, aes(x = " ", y = "Antwoord per stad", fill = Stad)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 20: Antwoord per stad") +
ggtitle("Antwoord per stad", subtitle = "Utrecht heeft geen antwoorden deze is hierdoor niet zichbaar") +
theme_void()
Nog steeds is te zien dat Groningen de meeste antwoorden en de rest van de steden maar een paar of helemaal geen zoals bij Utrecht.
reactie_stad <- select(reactie_stad, c(Stad))
plot_30_05 <- ggplot(reactie_stad, aes(x = " ", y = "", fill = Stad)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
ggtitle("", subtitle = "antwoorden op 30-05-2024") +
labs(caption = "Figuur 21: antwoord per stad") +
theme_void()
combined_plots <- grid.arrange(plot_14_05_stad, plot_30_05, ncol = 1)
In deze plot vergelijk ik de antwoorden van 14 mei met de antwoorden op 30 mei. Alle steden in beide data sets worden opgenomen. Het blijkt dus in de 16 dagen tijd dat niemand uit Utrecht de enquete heeft ingevuld. Dit is ook nog nadat wij Utrecht hebben gemailed en reacties van verschillende instellingen hebben gekregen. Het ziet er ook naar uit dat het deel van de antwoorden uit Groningen alleen maar groter is geworden. Waardoor onze onderzoeksvraag heel moeilijk wordt om te beantwoorden.
#elke catagorie bekijken of deze handig is te gebruiken
sekse_awn_30_05 <- select(Student_awn_data_30_05, c(Sekse))
ggplot(sekse_awn_30_05, aes(x = " ", y = "Antwoord per stad", fill = Sekse)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 22: Antwoord per Sekse") +
ggtitle("Antwoord per sekse", subtitle = "antwoorden op 30-05-2024") +
theme_void()
In deze plot is het verschil in antwoorden te zien tussen mannen en vrouwen. Er is te zien dat er een redelijk even verderling is in antwoordent tussen mannen en vrouwen, tussen deze twee groepen kunnen wij dus verschillende factoren vergelijken. Anders sekse heeft bijna geen antwoorden dus deze laten wij er wel bij zien maar hier kunnen wij geen conclusies voor geven.
vakgebied_awn_30_05 <- select(Student_awn_data_30_05, c(Vakgebied))
ggplot(vakgebied_awn_30_05, aes(x = " ", y = "Antwoord per Vakgebied", fill = Vakgebied)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 23: Antwoord per Vakgebied") +
ggtitle("Antwoord per Vakgebied", subtitle = "antwoorden op 30-05-2024") +
scale_fill_viridis_d() +
theme_void()
## Scale for fill is already present.
## Adding another scale for fill, which will replace the existing scale.
In dit plot is antwoord per vakgebied te zien er is te zien dat lifesciences eigenlijk de grootste aantal antwoorden omvangt. Hierdoor kunnen wij dus niet alle vakgebieden realistisch representeren met een goed gemidelde. wat ook betekent wat we de vakgebieden wel kunnen vergelijken maar geen betrouwbare conlussie er uit halen.
Niveau_awn_30_05 <- select(Student_awn_data_30_05, c(Niveau))
ggplot(Niveau_awn_30_05, aes(x = " ", y = "Antwoord per Niveau", fill = Niveau)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 24: Antwoord per Niveau") +
ggtitle("Antwoord per Niveau", subtitle = "antwoorden op 30-05-2024") +
scale_fill_viridis_d() +
theme_void()
## Scale for fill is already present.
## Adding another scale for fill, which will replace the existing scale.
In dit plot is antwoord per Niveau te zien. de meeste antwoorden komen van HBO waardoor de verdeling dus niet even is verdeeld. Hierdoor kunnen wij niet een goede vergelijking maken tussen deze niveau’s. Het laten zien hiervan kan dus wel maar er kunnen geen betrouwbare conclusies uitworden gehaald.
woonsit_awn_30_05 <- select(Student_awn_data_30_05, c(Woonsituatie))
ggplot(woonsit_awn_30_05, aes(x = " ", y = "Antwoord per Woonsituatie", fill = Woonsituatie)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 25: Antwoord per Woonsituatie") +
ggtitle("Antwoord per Woonsituatie", subtitle = "antwoorden op 30-05-2024") +
theme_void()
Dit zijn de antwoorden per woonsituatie. Dit heeft een redelijk gelijke verdeling wat betekent dat wij deze twee groepen kunnen gebruiken om verschillende factoren te vergelijken.
Relatie_stat_awn_30_05 <- select(Student_awn_data_30_05, c(Relatie_stat))
ggplot(Relatie_stat_awn_30_05, aes(x = " ", y = "Antwoord Relatie status", fill = Relatie_stat)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 26: Antwoord Relatie status") +
ggtitle("Antwoord Relatie status", subtitle = "antwoorden op 30-05-2024") +
theme_void()
De relatie status antwoorden zijn redelijk verdeeld en dus kunnen we deze 2 groepen gebruiken om verschillende factoren te vergelijken
NatInt_awn_30_05 <- select(Student_awn_data_30_05, c(Nationaal_Internationaal))
plot_14_05_natint <- ggplot(NatInt_awn_30_05, aes(x = " ", y = "Antwoord Nationaal of internationaal", fill = Nationaal_Internationaal)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
ggtitle(" Antwoord Nationaal of internationaal", subtitle = "antwoorden op 30-05-2024") +
theme_void()
plot_14_05_natint + labs(caption = "Figuur 27: Antwoord Nationaal of internationaal")
Het is duidelijk te zien in de grafiek dat de verdeling voor data tussen internationale en nationale heel disproportioneel is en daardoor kunnen wij deze groepen niet met elkaar vergelijken.
Opl_jaar_awn_30_05 <- select(Student_awn_data_30_05, c(Opl_jaar))
plot_14_05_natint <- ggplot(Opl_jaar_awn_30_05, aes(x = " ", y = "Antwoord opleidings Jaar", fill = Opl_jaar)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
ggtitle(" Antwoord opleiding's Jaar", subtitle = "antwoorden op 30-05-2024") +
theme_void()
plot_14_05_natint + labs(caption = "Figuur 28: Antwoord opleidings Jaar")
Hier is te zien wat de antwoorden zijn per opleiding jaar. dit is redelijk even verdeeld 1ste jaar heeft de meeste antwoorden daarna het 2de, 3rde en als laatste het 4de deze groepen zijn wel redelijk te vergelijken echter is het wel handig om te kijken welk niveau bij welk jaar zit.
Gelovig_awn_30_05 <- select(Student_awn_data_30_05, c(Gelovig))
plot_14_05_natint <- ggplot(Gelovig_awn_30_05, aes(x = " ", y = "Antwoord Gelovig", fill = Gelovig)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
ggtitle(" Antwoord Gelovig", subtitle = "antwoorden op 30-05-2024") +
theme_void()
plot_14_05_natint + labs(caption = "Figuur 29: Antwoord Gelovig")
Het antwoord tussen wel of niet gelovigen is grotendeels ongelovigen. Deze twee zijn wel te vergelijken maar er kan niet een betrouwbare conclusie uit worden getrokken.
kort gezegd de belangrijkste groepen voor vergelijking zijn:Niveau, Opleidingsjaar, Relatie, Woonsituatie en Sekse .
Op dag 28-05 heb ik al een paar factoren per groep bekeken. Vandaag doe ik nog een paar vergelijkingen
gem_geluk_30_05 <- Student_awn_data_30_05 %>%
mutate(average_col = Happy_RN + Happy_after_quest)
# de %>% zorgt dat ik in gem_geluk_30_05 een mutatie kan maken, ik heb het geluk pre en after het beantwoorden van onze enquête. opgeteld en daarna gedeeld door 2 waardoor er een gemiddelde uitkomt voor elke student
gem_geluk_30_05 <- gem_geluk_30_05 %>%
mutate(average_col = average_col / 2)
# hier wil ik dat de gem_geluk_30_05 variabele nu alleen nog het gemiddelde geluk die in de average col staat en de sekse die er bij hoort zodat ik deze kan laten zien.
gem_geluk_30_05 <- select(gem_geluk_30_05, c(Relatie_stat, average_col))
ggplot(gem_geluk_30_05, aes(x = Relatie_stat, y = average_col, fill = Relatie_stat)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
ylim(0, 10) +
geom_boxplot() +
ylab("Gemidelde geluk") +
xlab("Relatie ja of nee") +
labs(caption = "Figuur 30: Gemiddelde geluk in relatie") +
ggtitle("Het gemiddelde geluk Relatie", subtitle = "(Lijn in het vierkant is het gemiddelde)") +
theme_minimal()
Het gemiddelde geluk veranderd niet heel veel wanneer iemand in een relatie zit of niet. Dus deze grafiek is niet interesant om te laten zien.
#Hier maak ik verschillende variabelen aan die gemidelden opslaan
gem_geluk <- Student_awn_data_30_05 %>%
mutate(average_col = Happy_RN + Happy_after_quest)
# de %>% zorgt dat ik in gem_geluk een mutatie kan maken, ik heb het geluk pre en after het beantwoorden van onze enquête. opgeteld en daarna gedeeld door 2 waardoor er een gemiddelde uitkomt voor elke student
gem_geluk <- gem_geluk %>%
mutate(average_col = average_col / 2)
# hier wil ik dat de gem geluk variabele nu alleen nog het gemiddelde geluk die in de average col staat en de sekse die er bij hoort zodat ik deze kan laten zien.
gem_geluk <- select(gem_geluk, c(Sekse, average_col))
# Hier gebruik ik gg plot om een netjese boxplot te maken die de 95% mediaan en alles netjes laat zien zodat het goed is te zien wat het verschil in gemiddelde geluk is per sekse
ggplot(gem_geluk, aes(x = Sekse, y = average_col, fill = Sekse)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
ylab("Gemidelde geluk") +
labs(caption = "Figuur 31: Gemiddelde geluk per sekse") +
ggtitle("Het gemiddelde geluk per Sekse", subtitle = "(Lijn in het vierkant is het gemiddelde)")
Als we hier kijken zien we de verschillen in het gemiddelde geluk per sekse is het opmerkelijk om te zien dat vrouwen gemiddeld gelukkiger zijn. ECHTER is ook te zien dat de Q1-Q3 van de mannen hoger ligt. er is wel duidelijk te zien dat mensen die zich anders identificeren toch wel het ongelukigste zijn.
Verder hebben storm en ik beslist dat de dingen waar we nu verder in ons onderzoek op ingaan de factoren in de vragen zullen zijn.
gem_geluk <- Student_awn_data_30_05 %>%
mutate(average_col = Happy_RN + Happy_after_quest)
# de %>% zorgt dat ik in gem_geluk een mutatie kan maken, ik heb het geluk pre en after het beantwoorden van onze enquête. opgeteld en daarna gedeeld door 2 waardoor er een gemiddelde uitkomt voor elke student
gem_geluk <- gem_geluk %>%
mutate(average_col = average_col / 2)
# hier wil ik dat de gem geluk variabele nu alleen nog het gemiddelde geluk die in de average col staat en de sekse die er bij hoort zodat ik deze kan laten zien.
gem_geluk <- select(gem_geluk, c(Niveau, average_col))
# Hier gebruik ik gg plot om een netjese boxplot te maken die de 95% mediaan en alles netjes laat zien zodat het goed is te zien wat het verschil in gemiddelde geluk is per sekse
ggplot(gem_geluk, aes(x = Niveau, y = average_col, fill = Niveau)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
geom_boxplot() +
ylab("Gemidelde geluk") +
labs(caption = "Figuur 32: Gemiddelde geluk per Niveau") +
ggtitle("Het gemiddelde geluk per Niveau", subtitle = "(Lijn in het vierkant is het gemiddelde)")
In deze Grafiek is het volgende te zien er zijn 4 niveaus waar het gemiddeld gelukkigste niveau de masters studenten zijn. Dit is te zien aan de lijn in het groene blok. Deze ligt het hoogste van allemaal. De volgende dichtstbijzijnde zijn de Bachelor studenten aan de Universiteit. Opmerkelijk ook is een uitschieter bij de MBO studenten waar 1 iemand zwaar ongelukkig is. De HBO studenten hebben de meeste spreiding in hun antwoorden.
gem_geluk <- Student_awn_data_30_05 %>%
mutate(average_col = Happy_RN + Happy_after_quest)
# de %>% zorgt dat ik in gem_geluk een mutatie kan maken, ik heb het geluk pre en after het beantwoorden van onze enquête. opgeteld en daarna gedeeld door 2 waardoor er een gemiddelde uitkomt voor elke student
gem_geluk <- gem_geluk %>%
mutate(average_col = average_col / 2)
# hier wil ik dat de gem geluk variabele nu alleen nog het gemiddelde geluk die in de average col staat en de sekse die er bij hoort zodat ik deze kan laten zien.
gem_geluk <- select(gem_geluk, c(Woonsituatie, average_col))
# Hier gebruik ik gg plot om een netjese boxplot te maken die de 95% mediaan en alles netjes laat zien zodat het goed is te zien wat het verschil in gemiddelde geluk is per sekse
ggplot(gem_geluk, aes(x = Woonsituatie, y = average_col, fill = Woonsituatie)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
ylab("Gemidelde geluk") +
labs(caption = "Figuur 33: Gemiddelde geluk per Woonsituatie") +
ggtitle("Het gemiddelde geluk per Woonsituatie", subtitle = "(Lijn in het vierkant is het gemiddelde)")
Er is te zien dat mensen die uitwonen en dus niet meer thuis wonen gemiddeld zich gelukkiger voelen dan mensen die thuiswonen. Deze plot is dus interessant om in te vermelden in ons eindproduct.
gem_geluk <- Student_awn_data_30_05 %>%
mutate(average_col = Happy_RN + Happy_after_quest)
# de %>% zorgt dat ik in gem_geluk een mutatie kan maken, ik heb het geluk pre en after het beantwoorden van onze enquête. opgeteld en daarna gedeeld door 2 waardoor er een gemiddelde uitkomt voor elke student
gem_geluk <- gem_geluk %>%
mutate(average_col = average_col / 2)
# hier wil ik dat de gem geluk variabele nu alleen nog het gemiddelde geluk die in de average col staat en de sekse die er bij hoort zodat ik deze kan laten zien.
gem_geluk <- select(gem_geluk, c(Opl_jaar, average_col))
# Hier gebruik ik gg plot om een netjese boxplot te maken die de 95% mediaan en alles netjes laat zien zodat het goed is te zien wat het verschil in gemiddelde geluk is per sekse
ggplot(gem_geluk, aes(x = Opl_jaar, y = average_col, fill = Opl_jaar)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
theme(legend.position = "none") +
ylab("Gemidelde geluk") +
xlab("Opleidings jaar") +
labs(caption = "Figuur 34: Gemiddelde geluk in relatie") +
ggtitle("Het gemiddelde geluk per Opleidings jaar", subtitle = "(Lijn in het vierkant is het gemiddelde)")
Het geluk per opleiding jaar is niet heel verschillend het licht allemaal gemiddeld rond de 6.25 waar mensen in het 3rde jaar zich het gelukkigste voelen dit kan voor de universiteit studenten zijn omdat dit hun laatste jaar is. Het is niet dat iedereen zich super gelukkig voelt.
ggplot(Student_awn_data_30_05, aes(x = Sekse, y = Fys_import
, fill = Sekse)) +
ylim(0, 10) +
geom_violin() +
labs(caption = "Figuur 35: Belang fysieke gezondheid per sekse") +
labs(title = "Hoe belangrijk is je (fysieke-) gezondheid voor je geluk? ", x = "Sekse", y = "antwoord") +
theme_minimal()
Hier is te zien dat voor zowel mannen als vrouwen hun fysieke gezondheid zeer belangrijk is voor hun geluk. Het grootste deel zit tussen de 7 en 9.
ggplot(Student_awn_data_30_05, aes(x = Woonsituatie, y = Fys_import
, fill = Woonsituatie)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 36: Belang fysieke gezondheid per Woonsituatie") +
labs(title = "Hoe belangrijk is je (fysieke-) gezondheid voor je geluk? ", x = "Woonsituatie", y = "antwoord") +
theme_minimal()
Het is opmerkelijk in deze plot dat de gemiddelden hetzelfde zijn maar de thuiswonende wel meer uitschieters hebben.
ggplot(Student_awn_data_30_05, aes(x = Niveau, y = Fys_import
, fill = Niveau)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 37: Belang fysieke gezondheid per Niveau") +
labs(title = "Hoe belangrijk is je (fysieke-) gezondheid voor je geluk? ", x = "Niveau", y = "antwoord") +
theme_minimal()
In deze grafiek is te zien dat fysieke gezondheid over het algemeen belangrijk is voor elk opleidings niveau. er zijn wel verschillen in de mate van overeenstemming binnen de groep.
ggplot(Student_awn_data_30_05, aes(x = Relatie_stat, y = Fys_import
, fill = Relatie_stat)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 38: Belang fysieke gezondheid relatie") +
labs(title = "Hoe belangrijk is je (fysieke-) gezondheid voor je geluk? ", x = "Relatie", y = "antwoord") +
theme_minimal()
Bij deze grafiek is het raar omdat de inter kwartiel en gemiddelden identiek lijken. Deze plot is dus niet geschikt voor het eind product.
ggplot(Student_awn_data_30_05, aes(x = Opl_jaar, y = academische_pres, fill = Opl_jaar)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 39: Belang fysieke gezondheid per opleidingsjaar") +
labs(title = "Hoeveel Geluk door academische prestatie per opleidings jaar", x = "opleidingsjaar", y = "Geluk") +
theme_minimal()
Hier is een plot van het geluk door academische prestatie per opleidingsjaar. In dit plot is er geen opmerkelijke uitschieter of groot verschil in de gemiddelden. Ze liggen allemaal rond de 7/10 waarbij het 3rde en vierde jaar een halve punt naar boven of beneden liggen.
ggplot(Student_awn_data_30_05, aes(x = Sekse, y = academische_pres, fill = Sekse)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 40: Belang academische prestatie per sekse") +
labs(title = "Hoeveel Geluk door academische prestatie per Sekse", x = "Sekse", y = "Geluk") +
theme_minimal()
In deze grafiek is te zien dat voor mannen en vrouwen geluk door academische prestatie belangrijker is dan voor de ander sekse. Het gemiddelde is ook hetzelfde voor mannen en vrouwen.
ggplot(Student_awn_data_30_05, aes(x = Niveau, y = academische_pres, fill = Niveau)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 41: Belang academische prestatie per niveau") +
labs(title = "Hoeveel Geluk door academische prestatie per Niveau", x = "Niveau", y = "Geluk") +
theme_minimal()
Over het algemeen is de academische prestatie belangrijk echter is er wel te zien dat het voor mbo’ers het minst belangrijk is gemiddeld maar voor hbo studenten en masters studenten is het heel belangrijk.
ggplot(Student_awn_data_30_05, aes(x = Sekse, y = Geld_geluk, color = Sekse)) +
ylim(0, 10) +
geom_jitter(width = 0.2, size = 2) +
labs(caption = "Figuur 42: Belang geld per sekse") +
labs(title = "Geld is belangrijk voor mij om gelukkig te zijn.
", x = "Sekse", y = "Geluk") +
theme_minimal()
Hier heb ik een plot gemaakt waar te zien is hoe veel geld uit maakt voor het geluk van een student er is te zien dat bij vrouwen de meeste punten zitten tussen de 7.5 en de 5. bij de mannen ligt het grootste deel tussen 5 en 6.25. Wel opmerkelijk is de uitschieter bij de vrouwen naar benenden en bij mannen is deze juist naar boven. Kortom er is te zien dat beide seksen wel redelijk gelukkig worden van geld.
ggplot(Student_awn_data_30_05, aes(x = Sekse, y = Financiele_sit, fill = Sekse)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
labs(caption = "Figuur 43: financiele situatie per sekse") +
geom_boxplot() +
labs(title = "boxplot van financiële situatie", x = "Sekse", y = "financiële situatie") +
theme_minimal()
In deze plot is de financiële situatie te zien tussen de seksen en het laat zien dat gemideld mannen de beste situatie hebben. Behalve 2 uitschieters die een erg slechte financiële situatie hebben bij vrouwen is er maar 1 uitschieter deze heeft ook een erg slechte financiële situatie.
ggplot(Student_awn_data_30_05, aes(x = Woonsituatie, y = Geld_geluk, color = Woonsituatie)) +
ylim(0, 10) +
geom_jitter(width = 0.2, size = 2) +
labs(caption = "Figuur 44: Belang geld woonsituatie") +
labs(title = "Geld is belangrijk voor mij om gelukkig te zijn.
", x = "Woonsituatie", y = "Geluk") +
theme_minimal()
In deze plot is moeilijk te zien waar het gemiddelde ligt omdat de meningen verspreid zijn echter kan je wel zien dat uitwonend meer geluk halen uit geld omdat het voor thuiswonende aardig verspreid ligt.
ggplot(Student_awn_data_30_05, aes(x = Woonsituatie, y = Financiele_sit, fill = Woonsituatie)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
labs(caption = "Figuur 45: Financiele situatie per woonsituatie") +
geom_boxplot() +
labs(title = "boxplot van financiële situatie", x = "Woonsituatie", y = "financiële situatie") +
theme_minimal()
In deze plot is te zien dat thuiswonende gemiddeld in een beter financieel situatie zitten echter is ook te zien dat er 1 uitschieter is bij de thuiswonende die in een extreem slechte financiële situatie zit. Verder is de interkwartiel afstand tussen de twee verschillend waar de q3 van de uitwonende hoger naar boven gaat en de q1 van de thuiswonende juist naar beneden uitschiet.
ggplot(Student_awn_data_30_05, aes(x = Niveau, y = Geld_geluk, color = Niveau)) +
ylim(0, 10) +
geom_jitter(width = 0.2, size = 2) +
labs(caption = "Figuur 46: Belang geld per niveau") +
labs(title = "Geld is belangrijk voor mij om gelukkig te zijn.
", x = "Niveau", y = "Geluk") +
theme_minimal()
In deze scatter plot is duidelijk het verschil te zien in antwoorden waar uit ik niet een duidelijk antwoord kan halen waardoor deze plot niet handig is voor ons eind product.
ggplot(Student_awn_data_30_05, aes(x = Niveau, y = Financiele_sit, fill = Niveau)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
labs(caption = "Figuur 47: financiele situatie per niveau") +
geom_boxplot() +
labs(title = "boxplot van financiële situatie", x = "Niveau", y = "financiële situatie") +
theme_minimal()
Hier is de zien dat gemiddeld hbo’ers de slechtste financiële situatie hebben en dat masters studenten de beste hebben. Dit is ook wel logisch omdat masters studenten meestal al bijbaan hebben die goed verdient door het bacholer diploma.
ggplot(Student_awn_data_30_05, aes(x = Opl_jaar, y = Geld_geluk, color = Opl_jaar)) +
ylim(0, 10) +
labs(caption = "Figuur 48: Belang geld per opleidingsjaar") +
geom_jitter(width = 0.2, size = 2) +
labs(title = "Geld is belangrijk voor mij om gelukkig te zijn.
", x = "Opleidings jaar", y = "Geluk") +
theme_minimal()
Deze plot laat zien of geld belangrijk was om gelukkig te zijn per opleidings jaar het is alleen onduidelijk om uit deze data een goeie conclusie te halen en elk jaar lijkt wel gelukkig te zijn echter is wel te zien dat het 2de en 4de jaar een dip hebben.
ggplot(Student_awn_data_30_05, aes(x = Opl_jaar, y = Financiele_sit, fill = Opl_jaar)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 49: Financiele situatie per opleidingsjaar") +
labs(title = "boxplot van financiële situatie", x = "Opleidings jaar", y = "financiële situatie") +
theme_minimal()
Er is in deze plot te zien dat de 3de jaars gemiddeld in de beste financiële situatie zitten. Dit kan zijn voor universiteit studenten dat dit hun laatste jaar is en voor hbo’ers dat ze hun minor of een stage doen. de 2de jaars lijken in de slechtste financiële ik zou niet een reden kunnen bedenken hiervoor.
ggplot(Student_awn_data_30_05, aes(x = Relatie_stat, y = Geld_geluk, color = Relatie_stat)) +
ylim(0, 10) +
geom_jitter(width = 0.2, size = 2) +
labs(caption = "Figuur 50: Belang geld relatie") +
labs(title = "Geld is belangrijk voor mij om gelukkig te zijn.
", x = "Relatie status", y = "Geluk") +
theme_minimal()
er is niet een opmerkelijk verschil in dit plot waard om te benoemen
ggplot(Student_awn_data_30_05, aes(x = Relatie_stat, y = Financiele_sit, fill = Relatie_stat)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
labs(caption = "Figuur 51: financiele status relatie") +
geom_boxplot() +
labs(title = "boxplot van Financiele situatie", x = "Relatie status", y = "Financiele situatie") +
theme_minimal()
er is niet een opmerkelijk verschil in dit plot waard om te benoemen
ggplot(Student_awn_data_30_05, aes(x = Sekse, y = Mental_health, fill = Sekse)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
labs(caption = "Figuur 52: mentale gezondheid per sekse") +
geom_boxplot() +
labs(title = "boxplot van Mentale gezondheid per sekse", x = "Sekse", y = "Mental_health") +
theme_minimal()
Er is in deze plot te zien dat mannen gemiddelde de beste mentale gezondheid hebben en anders sekse de slechtste.
ggplot(Student_awn_data_30_05, aes(x = Woonsituatie, y = Mental_health, fill = Woonsituatie)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
labs(caption = "Figuur 53: mentale gezondheid per woonsituatie") +
geom_boxplot() +
labs(title = "boxplot van Mentale gezondheid van thuiswonende vs uitwonende", x = "Woonsituatie", y = "Mental_health") +
theme_minimal()
In deze plot is te zien dat de uitwonende studenten gemiddeld een beter mentale gezondheid hebben dan studenten die thuiswonen er zijn bij beide wel uitschieters.
ggplot(Student_awn_data_30_05, aes(x = Opl_jaar, y = Mental_health, fill = Opl_jaar)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
labs(caption = "Figuur 54: mentale gezondheid per opleidingsjaar") +
geom_boxplot() +
labs(title = "boxplot van Mentale gezondheid van verschillende opleidings jaren", x = "Opleidings jaar", y = "Mental_health") +
theme_minimal()
Er is duidelijk te zien dat het 2de opleidings jaar gemiddelde de slechtste mentale gezondheid heeft en dat het 3rde en 4de jaar de beste mentale gezondheid heeft. Dit is interessant om te laten zien in ons eind product.
ggplot(Student_awn_data_30_05, aes(x = Niveau, y = Mental_health, fill = Niveau)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
labs(caption = "Figuur 55: mentale gezondheid per niveau") +
geom_boxplot() +
labs(title = "Mentale gezondheid per niveau", x = "Niveau", y = "Mental_health") +
theme_minimal()
Hier is het verschil in mentale gezondheid per niveau en er is te zien dat masters studenten de beste mentale gezondheid hebben behalve 1 uitschieter wel is er maar 1 kwartiel te zien. bij de mbo’ers zijn beide kwartielen niet te zien alleen maar 1 lijn en 2 uitschieters. Bij universiteits studenten is alleen het q3 te zien.
ggplot(Student_awn_data_30_05, aes(x = Relatie_stat, y = Mental_health, fill = Relatie_stat)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 56: mentale gezondheid relatie") +
labs(title = "mentale gezondheid relatie", x = "Relatie status", y = "Mental_health") +
theme_minimal()
ggplot(Student_awn_data_30_05, aes(x = Sekse, y = Thuis_in_stad, fill = Sekse)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 57: Thuis in stad per sekse") +
labs(title = "Ik voel me thuis in de stad waar ik woon.
", x = "Sekse", y = "Antwoord") +
theme_minimal()
De mannen en vrouwen voelen zich beide gemiddeld even thuis in de stad waarin ze wonen de anders sekse voelen zich minder thuis.
ggplot(Student_awn_data_30_05, aes(x = Niveau, y = Thuis_in_stad, fill = Niveau)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 58: Thuis in stad per niveau") +
labs(title = "Ik voel me thuis in de stad waar ik woon.
", x = "Niveau", y = "Antwoord") +
theme_minimal()
Deze grafiek is heel apart hbo’ers voelen zich heel erg thuis de masters is moeilijk een oordeel uit te halen mbo’ers zijn gemiddeld niet super gelukkig en de uni studenten lijken even gelukkig als de hbo’ers.
ggplot(Student_awn_data_30_05, aes(x = Opl_jaar, y = Thuis_in_stad, fill = Opl_jaar)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 59: Thuis in stad per opleidingsjaar") +
labs(title = "Ik voel me thuis in de stad waar ik woon.
", x = "Opleidingsjaar", y = "Antwoord") +
theme_minimal()
Deze plot laat zien dat ieder opleidings jaar behalve de 4de zich gemiddeld zeer thuis voelt in de stad waar ze wonen.
ggplot(Student_awn_data_30_05, aes(x = Woonsituatie, y = Thuis_in_stad, fill = Woonsituatie)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
labs(caption = "Figuur 60: Thuis in stad per woonsituatie") +
geom_boxplot() +
labs(title = "Ik voel me thuis in de stad waar ik woon.
", x = "Woonsituatie", y = "Antwoord") +
theme_minimal()
Er is te zien dat mensen die in Groningen wonen zich heel erg thuis voelen hier het gemiddelde licht hier ook tussen de 8.75 en 10 er is ook te zien dat er iemand is die thuis woont en deze zich helemaal niet thuisvoelt waar ze wonen.
Om eerst te kijken hoe onze data verspreid is, rekenen we het
gemiddelde, 95% betrouwbaarheidsinterval en de standaard deviatie uit
voor elk stuk numerieke data.
De 95 procent betrouwbaarheidsinterval is belangrijk omdat het een bereik van waarden geeft waarbinnen we verwachten dat de ware populatieparameter met een zekerheid van 95 procent zit. Dit suggereert dat we 95% van de betrouwbaarheidsintervallen zouden bevatten van de werkelijke populatieparameter als we een groot aantal steekproeven zouden nemen en een betrouwbaarheidsinterval voor elke steekproef zouden berekenen. Het helpt ons te begrijpen hoe zeker we kunnen zijn over een geschat gemiddelde uit een geschatte waarde, net als het gemiddelde uit een steekproef, dus het is belangrijk. Hierdoor kunnen we bepalen of de informatie die we hebben verzameld betrouwbaar is.
De standaarddeviatie geeft aan hoe verspreid de getallen zijn in onze dataset. Als de standaarddeviatie klein is, liggen de getallen dicht bij het gemiddelde, wat betekent dat de meeste waarden in deze meting ongeveer hetzelfde zijn of ongeveer hetzelfde zijn als het gemiddelde. Bovendien geeft dit aan dat er weinig afwijkingen zijn van het gemiddelde en dat er weinig uitschieters of extreme waarden zijn. Wanneer de standaarddeviatie groot is, betekent dit dat de waarden verder liggen van het gemiddelde en dat er veel extreme waarden en of uitschieters zijn. Dit is belangrijk om te weten om te kunnen beoordelen of de gemiddelden betrouwbaar en representatief zijn
#Deze functie berekent het gemiddelde binnen de 95% betrouwbaarheidsinterval
mean_BI <- function(lijst) {
y_av <- mean(lijst) #Bereken het gemidelde van de lijst
s <- sd(lijst) # bereken de standaarddeviatie van de lijst
n <- length(lijst) # Bereken het aantal elementen in de lijst
s_av <- s / sqrt(n) # Bereken de standaardfout van het gemiddelde
BI <- y_av + qt(c(0.025, 0.975), n-1) * s_av # Bereken het 95% BI
(cat(sprintf("Gemiddelde = %.1f, 95%% BI = [%.1f, %.1f] SD = %.1f\n", y_av, BI[1], BI[2], s)) # Hier worden de resultaten geprint
)
}
#Maak een lijst van de numerieke data
list <- as.list(numerieke_data)
#Bereken het gemiddelde binnen de 95% betrouwbaarheids interval van alle factoren
c <- 1
for (i in list) {
print(colnames(numerieke_data[c]))
mean_BI(i)
c <- c + 1 # verhoogt de teller zodat de volgende kolom wordt verwerkt
}
## [1] "Happy_RN"
## Gemiddelde = 6.3, 95% BI = [5.9, 6.8] SD = 1.8
## [1] "Fys_Happy"
## Gemiddelde = 6.2, 95% BI = [5.7, 6.6] SD = 1.9
## [1] "Fys_import"
## Gemiddelde = 7.6, 95% BI = [7.2, 8.0] SD = 1.8
## [1] "Cont_buiten_school"
## Gemiddelde = 8.0, 95% BI = [7.7, 8.3] SD = 1.3
## [1] "Na_school_soc"
## Gemiddelde = 7.6, 95% BI = [7.2, 8.1] SD = 2.0
## [1] "Woonsituatie_geluk"
## Gemiddelde = 6.8, 95% BI = [6.3, 7.4] SD = 2.3
## [1] "Thuis_in_stad"
## Gemiddelde = 7.5, 95% BI = [6.9, 8.0] SD = 2.2
## [1] "academische_pres"
## Gemiddelde = 6.9, 95% BI = [6.4, 7.3] SD = 1.9
## [1] "Financiele_sit"
## Gemiddelde = 6.5, 95% BI = [6.0, 7.1] SD = 2.2
## [1] "Geld_geluk"
## Gemiddelde = 6.5, 95% BI = [6.1, 6.8] SD = 1.5
## [1] "drugs_alc_geluk"
## Gemiddelde = 2.1, 95% BI = [1.5, 2.7] SD = 2.6
## [1] "Mental_health"
## Gemiddelde = 6.2, 95% BI = [5.7, 6.6] SD = 2.0
## [1] "Happy_after_quest"
## Gemiddelde = 6.0, 95% BI = [5.6, 6.5] SD = 2.0
Hierboven is voor elke factor het gemiddelde gegeven. De twee punten in de betrouwbaarheids interval en de SD staat voor standaarddeviatie. Wat we hier uit kunnen halen is het volgende.
Het hoogste gemiddelde komt uit de Cont_buiten_school ook wel sociaal contact buiten school. deze heeft gemiddeld een 8 wat er op wijst dat mensen over het algemeen zeer tevreden zijn met hun contact buiten school.
Het laagste gemiddelde komt uit drugs_alc_geluk met een gemiddelde van 2.2. Wat zegt dat drugs- en alcohol gebruik het minste wordt gewaardeerd in termen van geluk. Wat een goed is omdat overtollig drugs- en of alcohol gebruikt op zowel kort als lang termijn negatieve effecten heeft op iemands mentale en fysieke gezondheid. Dit kan komen in meerdere vormen neem bijvoorbeeld alcohol afhankelijkheid waar een persoon om een bepaalde tijd alcohol moet drinken om goed te kunnen functioneren.
Breedste betrouwbaarheidsinterval komt ook uit drugs_alc_geluk met een BI score van 1.6 - 2.8 (een verschil van 1.2 punten) dit betekent dat er een grote onzekerheid over de daadwerkelijke gemiddelde score.
Smalste betrouwbaarheidsinterval komt van Cont_buiten_school het heeft een relatief smal 95% betrouwbaarheidsinterval van 7.7 - 8.3 (een verschil van 0.6 punten) wat zegt dat er een hogere precisie is van de schatting.
Hoogste standaarddeviatie komt uit drugs_alc_geluk met een standaarddeviatie van 2.7, wat zegt dat er veel variatie is in hoe mensen dit ervaren.
Laagste standaarddeviatie komt uit Cont_buiten_school met een standaarddeviatie van 1.3, wat zegt dat er minder variatie is in deze ervaring.
De gemiddelde standaard deviatie van de data is ongeveer 2. Dit is best hoog, omdat onze data op schaal van 1-10 is.
Om te kijken of onze data normaal verdeeld is, kunnen we een histogram maken:
ggplot(numerieke_data,
aes(x = Happy_RN )) +
ggtitle("Algemeen Geluk Studenten") +
ylab("Frequentie (Aantal Personen)") +
xlab("Algemeen Geluk") +
geom_bar() +
labs(caption = "Figuur 1: Algemeen Geluk Studenten ") +
theme("minimal")
Uit deze bar plot is te zien dat het grootste aantal van onze antwoorden rond de 6 ligt dit is dus niet normaal verdeeld. een normaal verdeling met een schaal van 0-10 zou het grootste aantal antwoorden moeten liggen rond de 5. Dit komt hoogstwaarschijnlijk vanwege een tekort aan respondenten. We gaan echter wel wat meer doen om te kijken of dat daadwerkelijk zo is.
Shapiro Wilcoxon Test
Om goed te kijken of onze data normaal verdeeld is, voeren we een shapiro wilk test uit. Uit deze test krijgen we een p-waarde en een t-waarde. Als de p-waarde >0.05 is, betekent dat dat onze data normaal verdeeld is.
#Voer een shapiro test uit op alle kolommen in de dataframe
shapiro_test_data <- as.character(sapply(numerieke_data, shapiro.test))
#Haal de onnodige informatie uit de vector
shapiro_test_data <- shapiro_test_data[! shapiro_test_data%in% c("Shapiro-Wilk normality test", "X[[i]]")]
#Maak een nieuwe dataframe aan
df_shapiro = data.frame(
col1= character(),
col2= character(),
stringsAsFactors = FALSE)
#Een counter voor de indexing
c <- 1
#Voeg rijen toe aan de dataframe
for(i in 1:13) {
#Maak een vector aan die in het dataframe komt
vec <- c(shapiro_test_data[c], shapiro_test_data[c+1])
#Voeg de vector toe aan de rij
df_shapiro[i, ] <- vec
#Voeg 2 toe aan de counter
c <- c +2
}
df_shapiro <- data.frame(t(df_shapiro))
rownames(df_shapiro) <- c("tstatistic", "pwaarde")
colnames(df_shapiro) <- colnames(numerieke_data)
df_shapiro
## Happy_RN Fys_Happy
## tstatistic c(W = 0.936714423178882) c(W = 0.955762735728325)
## pwaarde 0.00129928426753278 0.0128186176086297
## Fys_import Cont_buiten_school
## tstatistic c(W = 0.881201831956037) c(W = 0.910668300429494)
## pwaarde 5.84411583629919e-06 8.41413307131105e-05
## Na_school_soc Woonsituatie_geluk
## tstatistic c(W = 0.894808959677407) c(W = 0.922037043654275)
## pwaarde 1.90787781641955e-05 0.000264207944480388
## Thuis_in_stad academische_pres
## tstatistic c(W = 0.883329273481063) c(W = 0.950635041875853)
## pwaarde 6.99670740668276e-06 0.00674540078406198
## Financiele_sit Geld_geluk
## tstatistic c(W = 0.939491701903903) c(W = 0.94742238228964)
## pwaarde 0.00178486842407391 0.00455534917192871
## drugs_alc_geluk Mental_health
## tstatistic c(W = 0.788423678445583) c(W = 0.953881391196589)
## pwaarde 8.48086869590069e-09 0.0101062657760585
## Happy_after_quest
## tstatistic c(W = 0.934885640676947)
## pwaarde 0.0010572156383902
Hierboven zie je de shapiro wilk test uitgevoerd op alle numerieke data. Als je alle kolommen in de rij van de p-waarde af gaat, kan je zien dat geen enkele p-waarde >0.05 is. Dit betekent dat onze data niet normaal verdeeld is. Dit dat onze data niet normaal verdeeld is. Deze p-waarden vertellen ons ook dat wij onze hypothese moeten afwijzen, wat betekent dat er geen effect is. Dit is jammer, maar we kunnen ondanks dit nog wel naar andere onderwerpen kijken.
De t-statistic geeft ons ook een W waarde. Deze loop van 0 tot 1, waarbij 1 betekent dat de data perfect normaal verdeeld is. voor de W waarde wordt over het algemeen de ondergrens van 0.90 gehanteerd. als de test statistiek W grote dan 0.90 is dan kan de data als normaal verdeeld beschouwd worden. Er kan een kans zijn dat de W waarde en de P waarde hun resultaten elkaar tegen spreken.
p_waarde_data <- df_shapiro["pwaarde",]
p_waarde_data <- data.frame(t(p_waarde_data))
p_waarde_data[, "pwaarde"] <- as.numeric(p_waarde_data[, "pwaarde"])
barplot(unlist(p_waarde_data))
er is te zien ook in deze bar plot dat er een groot verschil is tussen alle p waarden. Het is moeilijk om deze data netjes te laten zien maar ik wilde graag een grafisch beeld.
Het schrijven van het eind product
Tasks
Er zijn eerder onderzoeken gedaan naar het geluk van jong
volwassenen, ook zijn er onderzoeken geweest naar het geluk van
studenten. Deze onderzoeken zijn echter niet heel diepgaand en focussen
meer op het algemene geluk gevoel. Ons onderzoek gaat ook in op factoren
die langdurig effect zouden hebben op iemands geluk. Ondanks dat ons
onderzoek wat dieper in gaat op deze factoren zal deze alsnog niet diep
genoeg zijn. In ons onderzoek wordt alles becijferd met een 0-10 schaal
deze kan duidelijker worden wanneer de student zijn eigen mening er in
kan zetten. Dit is voor ons in het tijd frame wat wij hebben niet
mogelijk. De technieken die wij hebben gebruikt zijn een enquête die via
een poster kan worden geopend en email’s die de link bevatten die
verwijzen naar de enquête.
Doelstelling
Op een grafische wijze laten zien wat het gemiddelde geluk is van de
studenten in de verschillende steden.
Kijken wat de verschillen zijn wanneer we naar de factoren kijken en
hier de groepen met elkaar vergelijken.
antwoord geven op de hypthose.
Deze doelstellingen willen wij bereiken door studenten in de
verschillende studenten steden een enquête laten in te vullen. Hier de
data uit te halen en deze verwerken met R. Van deze verwerkte data
grafieken maken waar de data netjes is uit te lezen. Hierdoor kunnen de
vragen en hypothese worden beantwoord.
De hypothese die wij willen be antwoorden is: Het maakt voor het geluk van de student niet uit in welke stad deze studeert.
| Tool | Referentie | Versie | Waarom |
|---|---|---|---|
| Google forms | https://docs.google.com/forms/ | Gebruikt om een enquête te maken die gebruikers vriendelijk is en een netjes csv bestand geeft als output. | |
| Git | https://www.git-scm.com | git version 2.44.0 | Git wordt gebruikt voor version control |
| Github | http://github.com | De gehele data set, logboeken en protocol staan op github omdat dit een netjese en goed navigeerbare omgeving maakt zodat iemand ook alles in 1 keer kan downloaden en bekijken. | |
| RStudio | https://posit.co/download/rstudio-desktop/ | Versie 2023.12.1+402 (2023.12.1+402) | Dit programma gebruiken we om ons RMarkdown document te maken wat uiteindelijk ons eindproduct is geworden. |
| R | https://www.r-project.org | R version 4.3.3 (2024-02-29) | R staat mensen toe om vaardig grote hoeveelheden gegevens te verwerken, publicatie-waardige visualisaties te genereren, en een reeks statistische en analytische computertaken uit te voeren |
| fmsb | https://cran.r-project.org/web/packages/fmsb/index.html | 0.7.6 (03-06-2024) | Wij gebruiken deze voor het maken van radar plots |
| ggplot2 | https://ggplot2.tidyverse.org | 3.5.1 (03-06-2024) | Deze package wordt om plotjes in dit document duidelijker en netjeser te maken |
| pwr | https://github.com/heliosdrm/pwr | 1.3-0 (October 14, 2022) | per wordt gebruikt om statistische analyze te doen zoals een t test |
| dplyr | https://dplyr.tidyverse.org | 1.1.4 (03-06-2024) | dplyr geeft andere commando’s die niet in de standaard versie van R zit. |
| knitr | https://yihui.org/knitr/ | knitr 1.47 (03-06-2024) | Knitr is gebruikt om dingen aan te passen die in de geknitte versie komen |
| tidyverse | https://www.tidyverse.org | tidyverse 1.3.0 (03-06-2024) | Tidyverse wordt gebruikt om verschillende dingen aan te passen in potjes |
| Canva | https://www.canva.com | Canva is gebruikt om posters te maken met qr codes die de enquete openen | |
| Google Spreadsheet | https://docs.google.com/spreadsheets/ | De antwoorden van de Google forms worden hier in een spreadsheet gezet en deze kan via een download knop omgezet worden in een csv file. |
Data van het cbs
in overleg met verschillende leraren hebben wij besloten om de data van het cbs ook te gebruiken. Dit omdat het interessant is om onze resultaten in Groningen te vergelijken met de algemene resultaten van Nederland.
De data laat het geluk zien van jongvolwassenen tussen de 18 en 26 jaar. dit is gemeten op een schaal van 0-100 waar 0 ongelukkig is en 100 gelukkig. Dit onderzoek heeft ons voorzien van de dataset.
De data set is begonnen met meten in 1997 en de laatste meting komt uit 2021. Er is niet duidelijk hoeveel personen gemeten zijn en welke factoren hun geluk beïnvloed dus wij gaan er van uit dat deze data op correcte manier is verzameld dit omdat het cbs een gerespecteerde bron is. Verder kunnen wij alleen ons algemene geluk vergelijken met deze data.
cbs_data_geluk <- read_csv("cbs_data_geluk.csv")
## Rows: 26 Columns: 5
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## dbl (1): Periode
## num (4): Tevredenheid, 18 jaar of ouder (%), Tevredenheid, 18 tot 25 jaar (%...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
colnames(cbs_data_geluk) <- c("Periode", "Tevredenheid_18_plus", "Tevredenheid_18_tot_25", "Geluk_18_plus", "Geluk_18_tot_25")
cbs_data_geluk <- cbs_data_geluk %>%
mutate(Geluk_18_tot_25 = Geluk_18_tot_25 / 100)
cbs_geluk_18_tot_25 <- select(cbs_data_geluk, c(Periode, Geluk_18_tot_25))
head(cbs_geluk_18_tot_25)
## # A tibble: 6 × 2
## Periode Geluk_18_tot_25
## <dbl> <dbl>
## 1 1997 9.11
## 2 1998 9.09
## 3 1999 8.98
## 4 2000 9.08
## 5 2001 9.09
## 6 2002 8.87
p_cbs <- ggplot() +
geom_point(data = cbs_geluk_18_tot_25, aes(x=Periode, y=Geluk_18_tot_25), color = "blue", alpha = 0.6) +
labs(caption = "Figuur 61: cbs data geluk") +
ylab("Geluk") +
xlab("Tijd periode in jaren") +
theme_minimal()
p_cbs
hierin is het gemiddelde geluk van jongvolwassenen te zien tussen de 18 en 25. dit is gemeten vanaf 1997 tot en met 2021 er is te zien dat er een dalende trend is. waar we voor 2015 vaak ruim boven de 8.75 zitten met de uitzondering van 2005. is het duidelijk dat er een negatieve trend ontstaat waarin 2020 en 2021 de laagste 2 gemiddelden worden gemeten. Dit is te verklaren door de corona crisis. Ondanks dat ik hier zeg er ontstaat een negatieve trend is het gemiddelde geluk nog steeds groter dan een 8/10 wat aangeeft dat de gemiddelde Nederlander wel gelukkig is.
Student_awn_data <- read.csv("Student_hap_awn_30_05.csv")
colnames(Student_awn_data) <- c("Tijd", "Sekse", "Niveau", "Opl_jaar","Vakgebied", "Woonsituatie", "Stad", "Nat_Int", "Gelovig", "Relatie_stat", "Happy_RN", "Fys_Happy", "Fys_import", "Cont_buiten_school", "Na_school_soc", "Ouder_relatie", "Woonsituatie_geluk", "Thuis_in_stad", "academische_pres", "Financiele_sit", "Geld_geluk", "Verd_mid_gebr", "drugs_alc_geluk", "Mental_health", "Happy_after_quest")
woonsit_df <- select(Student_awn_data, c(Woonsituatie,
Happy_RN,
Thuis_in_stad,
Woonsituatie_geluk,
Happy_after_quest))
woonsit_uit <- subset(woonsit_df, Woonsituatie == "Uitwonend (Away from home)")
woonsit_thuis <- subset(woonsit_df, Woonsituatie == "Thuiswonend (At home)")
p <- ggplot() +
geom_point(data = woonsit_thuis, aes(x=Happy_RN, y=Happy_after_quest), color = "red", alpha = 0.6) +
geom_point(data = woonsit_uit, aes(x=Happy_RN, y=Happy_after_quest), color = "blue", alpha = 0.6) +
xlim(0, 10) +
ylim(0, 10) +
labs(color = "Woonsituatie") +
xlab("Geluk voor de enquête") +
ylab("Geluk na de enquête")+
labs(caption = "Figuur 62: Thuiswonend vs uitwonend geluk") +
geom_jitter(width = 0.2, alpha = 0.5) +
facet_wrap(~Woonsituatie) +
ggtitle("Scatterplot Uit- vs Thuiswonende studenten geluk", subtitle = "Donkerder = meerdere zelfde antwoorden") +
theme_minimal()
p
Ik heb deze grafiek veranderd van een overlappende grafiek naar een facet wrap zodat het makkelijker te zien is. Voor dat dit was gedaan was er overlap waardoor er paarse dots ontstonden die een verkeerd beeld gaven. Wat te zien is het verschil in het gemiddelde geluk tussen de uitwonende en thuiswonende student te zien. Thuiswonende studenten zijn meer gemiddeld verdeeld echter zijn er 2 uitschieters. 1 die redelijk gelukkig was voor de enquête en na de enquête zich ongelukkig voelt de andere uitschieter is gelukkiger na de enquête.
p_2 <- ggplot() +
geom_point(data = woonsit_thuis, aes(x=Thuis_in_stad, y=Woonsituatie_geluk), color = "red", alpha = 0.6) +
geom_point(data = woonsit_uit, aes(x=Thuis_in_stad, y=Woonsituatie_geluk), color = "blue", alpha = 0.6) +
xlim(0, 10) +
ylim(0, 10) +
labs(color = "Woonsituatie") +
xlab("Geluk door Stad") +
ylab("Geluk Door woonsituatie")+
geom_jitter(width = 0.2, height = 0.2) +
facet_wrap(~Woonsituatie) +
labs(caption = "Figuur 63: Geluk door woonsituatie en stad") +
ggtitle("Scatterplot Uit- vs Thuiswonende studenten geluk", subtitle = "Donkerder = meerdere zelfde antwoorden") +
theme_minimal()
p_2
Hier is te zien dat mensen die uitwonen gemiddelde gelukkiger zijn met hun woonsituatie dan mensen die thuiswonen.
Onze onderzoeksvraag luid “In welke studenten stad zijn studenten het gelukkigst?“ Om deze vraag te beantwoorden hadden wij 4 studenten steden geselecteerd. Amsterdam, Groningen, Leiden en Utrecht. Naar de universiteiten, HBO’s en MBO’s zijn mails verstuurd. De mails zijn verstuurd naar de instituten zelf en de faculteiten, ook de studie verenigingen hebben mails gekregen. Ook zijn er op sommige plekken op zowel de HBO’s als universiteiten posters opgehangen. Dit is niet in Amsterdam gedaan dit is omdat na wij de posters hadden opgehangen in Utrecht en Leiden wij merkten dat dit niet een goede strategie was. Hierdoor zijn we gestart met de emails versturen. Hier zijn de resultaten van onze data verzameling. \ Dit is ook te zien aan onze power tests op dag 14-05 is te zien dat per groep voor een goede conclusie minimaal 64 personen moeten zijn en aangezien wij in totaal 77 antwoorden hebben is dit niet mogelijk. Onze p-waarde (p-value = 0.3307) is ook te hoog om conclusies te trekken. Dit omdat een hoge p-waarde zegt dat de resultaten niet statistisch significant zijn wat eigenlijk betekent dat er geen sterk bewijs is om aan te nemen dat er een werkelijk verschil of effect is hierdoor is de data waarschijnlijk niet te vertrouwen voor een basis voor het trekken van conclussies.
laatste_data <- read.csv("Student_hap_awn_30_05.csv")
colnames(laatste_data) <- c("Tijd", "Sekse", "Niveau", "Opl_jaar","Vakgebied", "Woonsituatie", "Stad", "Nat_Int", "Gelovig", "Relatie_stat", "Happy_RN", "Fys_Happy", "Fys_import", "Cont_buiten_school", "Na_school_soc", "Ouder_relatie", "Woonsituatie_geluk", "Thuis_in_stad", "academische_pres", "Financiele_sit", "Geld_geluk", "Verd_mid_gebr", "drugs_alc_geluk", "Mental_health", "Happy_after_quest")
ggplot(laatste_data, aes(x = " ", y = "Antwoord per stad", fill = Stad)) +
geom_col() +
coord_polar(theta = "y") +
scale_fill_brewer() +
labs(caption = "Figuur 64: antwoord per stad") +
ggtitle("Antwoord per stad", subtitle = "Utrecht heeft geen antwoorden deze is hierdoor niet zichbaar") +
theme_void()
Hier zijn alle verzamelde antwoorden te zien. Er is te zien dat er maar 3 steden staan. Dit is omdat er geen antwoorden zijn gekomen uit utrecht ondanks de mails en posters. De andere steden die wel data hebben zijn Amsterdam, Leiden en Groningen. Het is duidelijk te zien waar alle data vandaan komt. Wat dus betekent dat wij niet de onderzoeksvraag met goede onderbouwing kunnen beantwoorden. Dit betekent dus dat onze conclusie in relatie met de onderzoeksvraag “In welke studenten stad zijn studenten het gelukkigst?“ dit is niet uit onze data te halen. \
Wel kunnen wij andere dingen bekijken zoals verdovende middelen gebruik of mentale gezondheid tussen de sekse en allemaal andere vergelijkingen tussen groepen binnen onze enquête. We hebben natuurlijk om de steden gevraagd maar ook om welke sekse zich de student voelt, De relatie met hun ouders, drugs en alcohol gebruik, geloof, Hier zijn de interessantste grafieken die uit de data komen
Wie is het gelukkigste
#Hier maak ik verschillende variabelen aan die gemidelden opslaan
gem_geluk_laatste_data <- laatste_data %>%
mutate(average_col = Happy_RN + Happy_after_quest)
# de %>% zorgt dat ik in gem_geluk een mutatie kan maken, ik heb het geluk pre en after het beantwoorden van onze enquête. opgeteld en daarna gedeeld door 2 waardoor er een gemiddelde uitkomt voor elke student
gem_geluk_laatste_data <- gem_geluk_laatste_data %>%
mutate(average_col = average_col / 2)
# hier wil ik dat de gem geluk variabele nu alleen nog het gemiddelde geluk die in de average col staat en de sekse die er bij hoort zodat ik deze kan laten zien.
gem_geluk_laatste_data <- select(gem_geluk_laatste_data, c(Sekse, average_col))
# Hier gebruik ik gg plot om een netjese boxplot te maken die de 95% mediaan en alles netjes laat zien zodat het goed is te zien wat het verschil in gemiddelde geluk is per sekse
ggplot(gem_geluk_laatste_data, aes(x = Sekse, y = average_col, fill = Sekse)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 65: Gem geluk per sekse") +
ylab("Gemidelde geluk") +
ggtitle("Het gemiddelde geluk per Sekse", subtitle = "(Lijn in het vierkant is het gemiddelde)")
Van de studenten in Groningen zijn mannen gemiddeld het gelukkigste daarna vrouwen en de ongelukkigste sekse is de anders sekse. Er is wel 1 uitschieter bij de vrouwen die vrij ongelukkig is.
gem_geluk_laatste_data <- laatste_data %>%
mutate(average_col = Happy_RN + Happy_after_quest)
# de %>% zorgt dat ik in gem_geluk een mutatie kan maken, ik heb het geluk pre en after het beantwoorden van onze enquête. opgeteld en daarna gedeeld door 2 waardoor er een gemiddelde uitkomt voor elke student
gem_geluk_laatste_data <- gem_geluk_laatste_data %>%
mutate(average_col = average_col / 2)
# hier wil ik dat de gem geluk variabele nu alleen nog het gemiddelde geluk die in de average col staat en de Woonsituatie die er bij hoort zodat ik deze kan laten zien.
gem_geluk_laatste_data <- select(gem_geluk_laatste_data, c(Woonsituatie, average_col))
# Hier gebruik ik gg plot om een netjese boxplot te maken die de 95% mediaan en alles netjes laat zien zodat het goed is te zien wat het verschil in gemiddelde geluk is per Woonsituatie
ggplot(gem_geluk_laatste_data, aes(x = Woonsituatie, y = average_col, fill = Woonsituatie)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 66: gem geluk per woonsituatie") +
ylab("Gemidelde geluk") +
ggtitle("Het gemiddelde geluk per Woonsituatie", subtitle = "(Lijn in het vierkant is het gemiddelde)")
Het is ook wel interessant om te zien dat studenten die niet meer thuiswonen en dus in de stad Groningen wonen zijn gemiddeld gelukkiger dan mensen die bij hun ouders wonen. Dit kan komen door verschillende redenen zoals het gevoel van vrijheid of niet een goede relatie met de ouders hebben waardoor niet meer bij hun wonen het algemene geluk verbeterd.
Drugs_gebruik_woonsit <- select(laatste_data,c(Sekse,Verd_mid_gebr,drugs_alc_geluk))
Drugs_gebruik_woonsit <- Drugs_gebruik_woonsit %>%
mutate(Verd_mid_gebr = ifelse(Verd_mid_gebr == "Ja (Yes)", 1, 0))
Drugs_gebruik_woonsit <- Drugs_gebruik_woonsit %>%
filter(Verd_mid_gebr != 0)
ggplot(Drugs_gebruik_woonsit, aes(x=Sekse, y=Verd_mid_gebr, fill = Sekse)) +
geom_bar(stat = "identity") +
ylab("A") +
labs(caption = "Figuur 67: drugs en alcohol gebruik per sekse") +
ggtitle("Het Drugs & Alcohol gebruik onder de studenten", subtitle = "Per sekse")+
theme(legend.position="none")
Hier is het verschil te zien in drugs & alcohol gebruik tussen de verschillende seksen. Er is hier niet een groot verschil te zien tussen de seksen wel is te zien dat vrouwen iets meer Drugs en of alcohol gebruiken dan mannen. Anders seksen kan weinig over gezegd worden omdat hier te weing antwoorden voor zijn.
Drugs_gebruik_woonsit <- select(laatste_data,c(Opl_jaar,Verd_mid_gebr,drugs_alc_geluk))
Drugs_gebruik_woonsit <- Drugs_gebruik_woonsit %>%
mutate(Verd_mid_gebr = ifelse(Verd_mid_gebr == "Ja (Yes)", 1, 0))
Drugs_gebruik_woonsit <- Drugs_gebruik_woonsit %>%
filter(Verd_mid_gebr != 0)
ggplot(Drugs_gebruik_woonsit, aes(x=Opl_jaar, y=Verd_mid_gebr, fill = Opl_jaar)) +
geom_bar(stat = "identity") +
xlab("Opleidings jaar") +
ylab("Persoon") +
labs(caption = "Figuur 68: drugs en alcohol gebruik per opleidingsjaar") +
ggtitle("Het Drugs & Alcohol gebruik onder de studenten", subtitle = "Per opleidngsjaar")+
theme(legend.position="none")
Hier is te zien wat het drugs gebruik is per opleidingsjaar. Er zijn meer antwoorden binnen gekomen van 1ste jaars maar niet zo significant meer dan de andere jaren. Hierdoor is dus te zeggen dat eerste jaars studenten waarschijnlijk het meeste drugs en alcohol gebruiken. Dit zou kunnen komen omdat ze in deze omgeving minder negatief stigma staat op drugs & alcohol gebruik. Er wordt gezegt dat je in je studenten leven met allemaal dingen experimenteerd. In Groningen heb je bijvoorbeeld de kei-week waar allemaal nieuwe studenten een week lang feesten. Hier hoort dus alcohol en drugs gebruik bij. Dit zou dus kunnen zorgen voor het grote verschil tussen de eerste en de andere jaren.
ggplot(laatste_data, aes(x = Opl_jaar, y = Fys_import
, fill = Opl_jaar)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 69: Hoe belangrijk is je (fysieke-) gezondheid voor je geluk per opleidingsjaar") +
labs(title = "Hoe belangrijk is je (fysieke-) gezondheid voor je geluk? ", x = "opleidings jaar", y = "antwoord") +
theme_minimal()
Hier is te zien hoe belangrijk de fysieke gezondheid is voor de verschillende opleidings jaren en de gemiddelden liggen allemaal bijna op 1 lijn wat ook interessant is en dit betekend dat er gemiddeld niet een verschil in zit voor hoe belangrijk de fysieke gezondheid is voor studenten.
ggplot(laatste_data, aes(x = Niveau, y = Fys_import
, fill = Niveau)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 70: Hoe belangrijk is je (fysieke-) gezondheid voor je geluk per niveau") +
labs(title = "Hoe belangrijk is je (fysieke-) gezondheid voor je geluk? ", x = "Niveau", y = "antwoord") +
theme(legend.position="none")
Per niveau is het gemiddelde ook redelijk gelijk over elk niveau is het gemiddelde tussen de 7.5 en 8.75 wat betekent dat elk niveau zijn fysieke gezondheid belangrijk vindt en dit het geluk van de student erg beinvloed.
ggplot(laatste_data, aes(x = Sekse, y = Geld_geluk, fill = Sekse)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 71: Geluk door geld per sekse") +
labs(title = "boxplot van Geluk door Geld", x = "Sekse", y = "Geluk door geld") +
theme_minimal()
Hier is te zien dat vrouwen gemiddeld gelukkig worden door geld dan mannen. Voor anders sekse maakt geld niet gelukkig echter is voor de ander sekse weinig data dus deze conclusie is niet heel betrouwbaar.
ggplot(laatste_data, aes(x = Sekse, y = Financiele_sit, fill = Sekse)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
labs(caption = "Figuur 72: Financiele situatie per sekse") +
geom_boxplot() +
labs(title = "Financïele situatie van de Sekse", x = "Sekse", y = "Financïele situatie") +
theme_minimal()
Hier is te zien dat mannen gemiddeld in een betere financïele situatie zitten dan dat vrouwen dat zitten. Er zijn bij beide wel 2 uitschieters die in een zeer slechte financïele situatie zitten.
ggplot(laatste_data, aes(x = Opl_jaar, y = Geld_geluk, fill = Opl_jaar)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
labs(caption = "Figuur 73: Geluk door geld per opleidingsjaar") +
geom_boxplot() +
labs(title = "boxplot van Geluk door Geld", x = "Opleidings jaar", y = "Geluk door geld") +
theme_minimal()
ggplot(laatste_data, aes(x = Opl_jaar, y = Financiele_sit, fill = Opl_jaar)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
labs(caption = "Figuur 74: financiele situatie per opleidingsjaar") +
geom_boxplot() +
labs(title = "Financïele situatie van de opleidingsjaren", x = "Opleidingsjaar", y = "Financïele situatie") +
theme_minimal()
Hier zijn de grafieken te zien van het Geluk door geld en financïele situatie van de verschillende opleidings jaren. Opmerkelijk is dat het 2de opleidings jaar het minste geluk aan geld hecht maar ook degene zijn met gemiddeld de slechtste financiele situatie. Verder zitten de 3rde jaar studenten in de beste financiele situatie dit kan komen door stage of het feit dat de studie bijna is afgerond bijvoorbeeld in het geval van universiteits studenten en masters studenten.
ggplot(laatste_data, aes(x = Woonsituatie, y = Mental_health, fill = Woonsituatie)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
labs(caption = "Figuur 75: mentale gezondheid woonsituatie") +
geom_boxplot() +
labs(title = "boxplot van Mentale gezondheid van thuiswonende vs uitwonende", x = "Woonsituatie", y = "Mental_health") +
theme_minimal()
Het is duidelijk dat de mentale gezondheid van studenten die thuiswonen slechter is dan studenten die niet meer thuiswonen. Dit is te zien door dat de gemiddelde lijn (ook wel mediaan) van de thuiswonende studenten, Deze ligt onder de q1 van de uitwonende studenten.
ggplot(laatste_data, aes(x = Vakgebied, y = Mental_health, fill = Vakgebied)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
labs(caption = "Figuur 76: mentale gezondheid per vakgebied") +
geom_boxplot() +
labs(title = "boxplot van Mentale gezondheid van thuiswonende vs uitwonende", x = "vakgebied", y = "Mental health") +
theme_minimal()+
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
theme(legend.position="none")
Ondanks dat de data oneven verdeeld is ga ik toch deze plot benoemen er is namelijk te zien dat vergeleken met de andere opleiding studenten die kunst studeren mentaal veel ongelukkiger zijn. Dit is anders dan dat ik had verwacht. Ik had verwacht dat studenten van een technische studie ongelukkiger zouden zijn.
ggplot(laatste_data, aes(x = Woonsituatie, y = Thuis_in_stad, fill = Woonsituatie)) +
stat_boxplot(geom = "errorbar",
width = 0.25) +
ylim(0, 10) +
geom_boxplot() +
labs(caption = "Figuur 77: thuis voelen in de stad waar je woont per Woonsituatie") +
labs(title = "Ik voel me thuis in de stad waar ik woon.
", x = "Woonsituatie", y = "Antwoord") +
theme_minimal()
Er is te zien dat mensen die in Groningen wonen zich heel erg thuis voelen hier het gemiddelde licht hier ook tussen de 8.75 en 10 er is ook te zien dat er iemand is die thuis woont en deze zich helemaal niet thuisvoelt waar ze wonen.
Deze besproken plots zijn volgens mij het belangrijkste. Deze data komt uit ons onderzoek en om het nogmaals te benoemen geeft geen antwoord op onze eigenlijke onderzoeksvraag “In welke studenten stad zijn studenten het gelukkigst?“
Ik heb in de README nog wat dingen gezet zoals de tabel en de conclusie + de installatie wijze
De data die verzamelt is kan niet worden gebruikt in andere onderzoeken. Dit omdat het te weinig is om een betrouwbaar antwoord te geven. Hierdoor kunnen wij alleen antwoord geven op de factoren die wij hebben bekeken. Deze zijn alleen van de studenten uit Groningen dit omdat hier wij de meeste data van hebben verzameld. Het blijkt dat mannen over het algemeen het gelukkigste zijn. en Anders sekse zijn het minst gelukkig.
### Benodigdheden
| Tool | Referentie | Versie | Waarom |
|---|---|---|---|
| Google forms | https://docs.google.com/forms/ | Gebruikt om een enquête te maken die gebruikers vriendelijk is en een netjes csv bestand geeft als output. | |
| Git | https://www.git-scm.com | git version 2.44.0 | Git wordt gebruikt voor version control |
| Github | http://github.com | De gehele data set, logboeken en protocol staan op github omdat dit een netjese en goed navigeerbare omgeving maakt zodat iemand ook alles in 1 keer kan downloaden en bekijken. | |
| RStudio | https://posit.co/download/rstudio-desktop/ | Versie 2023.12.1+402 (2023.12.1+402) | Dit programma gebruiken we om ons RMarkdown document te maken wat uiteindelijk ons eindproduct is geworden. |
| R | https://www.r-project.org | R version 4.3.3 (2024-02-29) | R staat mensen toe om vaardig grote hoeveelheden gegevens te verwerken, publicatie-waardige visualisaties te genereren, en een reeks statistische en analytische computertaken uit te voeren |
| fmsb | https://cran.r-project.org/web/packages/fmsb/index.html | 0.7.6 (03-06-2024) | Wij gebruiken deze voor het maken van radar plots |
| ggplot2 | https://ggplot2.tidyverse.org | 3.5.1 (03-06-2024) | Deze package wordt om plotjes in dit document duidelijker en netjeser te maken |
| pwr | https://github.com/heliosdrm/pwr | 1.3-0 (October 14, 2022) | per wordt gebruikt om statistische analyze te doen zoals een t test |
| dplyr | https://dplyr.tidyverse.org | 1.1.4 (03-06-2024) | dplyr geeft andere commando’s die niet in de standaard versie van R zit. |
| knitr | https://yihui.org/knitr/ | knitr 1.47 (03-06-2024) | Knitr is gebruikt om dingen aan te passen die in de geknitte versie komen |
| tidyverse | https://www.tidyverse.org | tidyverse 1.3.0 (03-06-2024) | Tidyverse wordt gebruikt om verschillende dingen aan te passen in potjes |
| Canva | https://www.canva.com | Canva is gebruikt om posters te maken met qr codes die de enquete openen | |
| Google Spreadsheet | https://docs.google.com/spreadsheets/ | De antwoorden van de Google forms worden hier in een spreadsheet gezet en deze kan via een download knop omgezet worden in een csv file. | |
| Mendeley refrence manager | https://docs.google.com/forms/ | 2.112.2 | Gebruikt om een alle literatuur netjes te ordenen en goed te refrencen |
Met de volgende commands zijn de packages te instaleren in RStudio
install.packages("knitr")
install.packages("ggplot2")
install.packages("fmsb")
install.packages("tidyverse")
install.packages("dplyr")
als laatste heb ik de conclussie nog een begin gemaakt. ### Conclusie
De data die wij verzameld hebben is niet genoeg om een antwoord te
geven op de hypothese. Dit komt omdat er niet genoeg data is voor elke
stad. De stad met het grootste aantal antwoorden is Groningen deze heeft
echter ook maar rond de 70. De 70 antwoorden zijn niet genoeg om met 95%
zekerheid een antwoord te geven. Hierdoor zullen wij alleen naar
factoren kunnen kijken zoals verschillen tussen de seksen in de stad
Groningen. Hier kunnen we uit halen dat mannen het gelukkigste zijn en
de anders sekse het ongelukkigste.
Deze data zal niet kunnen worden gebruikt in het werkveld. Het is niet genoeg om vertrouwen op de gegeven resultaten. Hierdoor is het een deel speculatief waardoor het niet betrouwbaar is.
(zorg voor kleine samenvatting bij elke apa verwijzing + waarom je dit gebruikt)
Jacobsen, B. (2007, 1 januari). What is Happiness? | Existential Analysis: Journal of the Society for Existential Analysis | EBSCOhost. https://openurl.ebsco.com/EPDB%3Agcd%3A10%3A4911050/detailv2?sid=ebsco%3Aplink%3Ascholar&id=ebsco%3Agcd%3A24478440&crl=c - Deze paper gebruiken we omdat er gekeken wordt naar wat geluk nou eigenlijk is. Het kijkt naar verschillende concepten van geluk en kijkt naar de psychologie er van. Dit is handig om te kijken wat voor externe factoren effect hebben op een persoon waardoor zijn geluk kan worden beinvloed. Het kijkt ook naar levens doelen en levens voldoening wat in het grote scala ook met geluk te maken heeft.
Easterlin, R. A. (2003). Explaining happiness. Proceedings Of The National Academy Of Sciences Of The United States Of America, 100(19), 11176–11183. https://doi.org/10.1073/pnas.1633144100 - In deze paper wordt gekeken naar sociale enquêtes en wat deze data zegt over de omstandigheden van geluk. Er wordt ook gezegd dat Psychologen hun model twijfelachtig is en dat het bepaalde levens omstandigheden en levens gebeurtenissen niet in zich opneemt. Dit zijn dan getrouwd zijn of scheiding. Ook bijvoorbeeld een zware onbekwaamheid of mentale worsteling zoals depressie of adhd. Deze hebben een langdurig effect op hoe een persoon geluk ervaart. Deze paper is dus belangrijk voor ons onderzoek dit omdat er factoren in staan die ook moeten worden meegenomen. Dit zijn dus bijvoorbeeld: Mentalegezondheid, Thuis situatie, Voel je je op je plek in de stad waarin je woont (Soms is het moeilijk om in een nieuwe stad te leven vooral als een eerste jaars), Of iemand een international is. Weg zijn van je ouders en je huis waar je niet zomaar terug naar toe kan is ook een mentale druk die je geluk langdurig kan aantasten. Het is daarom een goede paper voor ons omdat het een idee geeft over factoren die je normalieter misschien over het hoofd ziet. Dit maakt het dus een belangrijke bron om een goede enquete te bouwen tevens zegt het artikel ook dat enquêtes een redelijke meet wijze is.
Veenhoven, R. (1991, 1 januari). Questions on Happiness. https://repub.eur.nl/pub/16149/
in deze paper wordt er naar verschillende perioden gekeken. Dit zijn de antieke Griekse filosofie, De Na-verlichting west europeese morale filosofie, “Utilitarianism” specifiek en de huidige kwaliteit van leven onderzoeken in rijke welvarende staten. deze paper bekijkt het in de progressie van 7 klasieke onderwerpen
The following issues will be considered:
Deze onderwerpen geven ons goeie informatie om vragen op te bouwen. ook wordt er bijvoorbeeld in het onderwerp “Can happiness be measured” sub onderwerp “Assesment by quetstioning” besproken of een enquête wel een goed beeld weergeeft en of mensen zelf wel kunnen zien of ze gelukkig zijn of niet. Echter vinden de onderzoekers dat mensen meestal wel bewust zijn van het genot van hun leven. Als we naar de conclusie kijken bij onderwerp 5 wordt verteld dat er weinig kennis en onderzoek is over welke voorwaarden zorgen voor een positieve waardering van het leven.